Strip tags

Strip tags zodpovězená otázka

VB.NET, Regulární výrazy

23. 3. 2009 17:12

Petr Žižka

21 116

Jakou používáte funkci na odstranění HTML značek?

Zatím mě napadl tenhle Regexp "<.*?>". Někdo jiný přístup?

nahlásit spam

odpovědět

23. 3. 2009 18:41

Petr Doleček

40 169

Nevím, jak už tu bylo několikrát zmiňováno, nemá cenu cpát regulérní výrazy do všeho. Co kdyby chtěl někdo napsat třeba "Zmáčkněte <ctrl>+<c>". Dost často se používá/používalo psaní konkrétních kláves do lomenejch závorek. Určitě budou i jiný případy.

Na druhou stranu to je třeba optimální řešení. Ale neprůstřelný to rozhodně není, alespoň tento konkrétní případ "<.*?>"

nahlásit spam

odpovědět

24. 3. 2009 9:54

Tomáš Herceg

1847 3847

Pokud někdo do stránky napíše <ctrl>+<c> rovnou a místo znaků <>, které nemají mít tentokrát funkci ohraničení tagu, nepoužije HTML entity < a >, pak stránka není HTML validní.

Obecně můžete použít regexpy k vyházení HTML značek, ale narazíte na několik problémů, které vá jednoduchý regexp neudělá a celé se to výrazně zkomplikuje.

- vystříhání komentářů

- vyházení obsahů značek script, style, title atd. (skripty a styly určitě uživatel vidět nechce)

- a pár dalších nechutností

Pokud máte zaručeno, že stránka nebude mít syntaktické chyby, což většinou zaručit nejde, máte dost velký problém, protože regexp se na tomhle rozbije a nenamatchuje to, co potřebujete.

Dalším problémem je výkon, regexpy jsou už ze svého principu pomalé.

Pokud potřebujete parsovat jednoduché stránky a máte jistotu, že nebudou obsahovat chyby, pak použijte regexpy. Pokud děláte nějaký program stahující stránky z webu a vyhledávající v nich nějaké informace nebo něco podobného, kam vám kdokoliv může podstrčit jakkoliv zprasené HTML, určitě doporučuji spíš použít nějakou knihovnu, např. HTMLAgilityPack. Čtení HTML funguje víceméně stejně jako práce s třídou System.Xml.XmlDocument, která se používá pro čtení XML. Prostě vám to udělá DOM strom, ve kterém se můžete hrabat. Napsat si pak převod HTML na text chce jenom trochu rozmyslet, za kterými značkami se bude zalamovat řádek (i když v původním dokumentu třeba zalomení není):

<li>první</li><li>druhá</li><li>třetí</li>

by se mělo převést na

první
druhá
třetí

atd. To už dá trochu práce, ale není to tak strašné.

nahlásit spam

odpovědět

DotNETcollege: Mohlo by vás zajímat

MAUI - multiplatformní aplikace v .NETu

Úvod do XAML

Vyvíjíme univerzální aplikace pro Windows

Kontejnery, Docker a Azure Kubernetes Service (AKS)

TypeScript

Testování v prostředí .NET - unit testy a integrační testy

Kontinuální integrace pomocí TeamCity

Entity Framework pro pokročilé

Xamarin - vývoj multiplatformních mobilních aplikací

Javascript pro mírně pokročilé

24. 3. 2009 13:21

Petr Žižka

21 116

děkuji za tip ohledně HTMLagilityPacku - myslím, že pro parsování HTML stránek jsem doposud neviděl nic lepšího.

Ten regexp jsem spíše myslel jen pro vyházení značek. Aby náhodou uživatel nevložil HTML značky, které by se mohli v prohlížeči interpretovat. Nebo je nahradím za & entity - ještě nevím. Šlo mi jen o bezpečnost a zamezení uživatelům vložit interpretovatelný HTML kód.

Jakým způsobem máte například ošetřeno používání HTML značek v téhle diskuzi?

nahlásit spam

odpovědět

otázka připomínka kladné hodnocení záporné hodnocení

Nadpis:

Antispam:

Komu se občas házejí perly?

Příspěvek bude publikován pod identitou anonym.

Administrátoři si vyhrazují právo komentáře upravovat či mazat bez udání důvodu.
Mazány budou zejména komentáře obsahující vulgarity nebo porušující pravidla publikování.

Pokud nejste zaregistrováni, Vaše IP adresa bude zveřejněna. Pokud s tímto nesouhlasíte, příspěvek neodesílejte.

dotNETportal.cz

Strip tags zodpovězená otázka

Strip tags

DotNETcollege: Mohlo by vás zajímat

Nahlásit spam

Chyba

dotNETportal.cz

Strip tags zodpovězená otázka

Strip tags

DotNETcollege: Mohlo by vás zajímat

přihlásit pomocí externího účtu

přihlásit pomocí jména a hesla

založit nový uživatelský účet

Nahlásit spam

Chyba