[python] parsovanie tagov
Leos Pol
leos.pol na firma.seznam.cz
Pondělí Únor 11 13:07:34 CET 2008
Prave jsem chtel napsat, co napsal Honza. Ale presto neco pridam:
3) ja bych pouzil re.findall na prohledavani <url>
4) budes mit potom problemy s HTML escape znaky
5) jsou tam i adresare
6) samotne zdrojaky jsou ke stazeni pod stejnym url jen bez pripony
".html" :-)
Leo
Jan Jakubuv wrote:
> dobry den,
>
> nevim jestli je to Vas zamer, ale v
> reg = re.compile(r"href=(?P<url>[.a-z]+)\.html")
> chybi uvozovky kolem argumentu. s uvozovkami by vyraz vypadal takto:
> reg = re.compile(r'href="(?P<url>[.a-z]+)\.html"').
>
> Podle toho, co Vam program hlasi ale bude chyba asi jinde..
>
> 1) v cmdReg = re.compile(r"<pre>(?P<prikaz> .*)</pre>") mate navic mezeru
> za <prikaz>, cili napiste "<prikaz>.*" namisto "<prikaz> .*"
>
> 2) pokud ma text mezi tagy "pre" vice radek, tak je je potreba zapnout
> priznak DOTALL pri kompilaci vyrazu. Jinak totiz "." neobsahuje konec
> radku, cili znak "\n" (ci obdobne dle systemu). Pokud uvedete priznak
> DOTALL tak potom teprve "." znamena jakykoliv znak.
>
> celkove bych napsal:
> cmdReg = re.compile(r"<pre>(?P<prikaz>.*)</pre>", re.DOTALL)
>
> Nakonec mala rada. Pokud pisete program co obsahuje regularni vyrazy,
> vyzkousejte si je nejpreve nekde nanecisto, na Vami pripravenem
> vstupu, napr.:
>
Další informace o konferenci Python