[python] parsovanie tagov

Pondělí Únor 11 13:07:34 CET 2008

Prave jsem chtel napsat, co napsal Honza. Ale presto neco pridam:
3)   ja bych pouzil re.findall na prohledavani <url>
4)   budes mit potom problemy s HTML escape znaky
5)   jsou tam i adresare
6)   samotne zdrojaky jsou ke stazeni pod stejnym url jen bez pripony 
".html" :-)

Leo

Jan Jakubuv wrote:
> dobry den,
>
> nevim jestli je to Vas zamer, ale v
>    reg = re.compile(r"href=(?P<url>[.a-z]+)\.html")
> chybi uvozovky kolem argumentu. s uvozovkami by vyraz vypadal takto:
>     reg = re.compile(r'href="(?P<url>[.a-z]+)\.html"').
>
> Podle toho, co Vam program hlasi ale bude chyba asi jinde..
>
> 1) v cmdReg = re.compile(r"<pre>(?P<prikaz> .*)</pre>") mate navic mezeru
>     za <prikaz>, cili napiste "<prikaz>.*" namisto "<prikaz> .*"
>
> 2) pokud ma text mezi tagy "pre" vice radek, tak je je potreba zapnout
> priznak DOTALL pri kompilaci vyrazu. Jinak totiz "." neobsahuje konec
> radku, cili znak "\n" (ci obdobne dle systemu). Pokud uvedete priznak
> DOTALL tak potom teprve "." znamena jakykoliv znak.
>
> celkove bych napsal:
>   cmdReg = re.compile(r"<pre>(?P<prikaz>.*)</pre>", re.DOTALL)
>
> Nakonec mala rada. Pokud pisete program co obsahuje regularni vyrazy,
> vyzkousejte si je nejpreve nekde nanecisto, na Vami pripravenem
> vstupu, napr.:
>