Re: [python] Python - taková skoro školní úloha

Jaroslav Lukesh lsh na wo.cz
Středa Červenec 31 15:24:24 CEST 2002


| Odesílatel: Radek Kanovsky <rk na dat.cz>
| > > Jde to udelat velmi jednoduse vytvorenim DOM reprezentace HTML
| > > dokumentu. Je to ale neefektivni a rychlejsi je pouzit nejaky SAX
nebo
| > > SGML parser, ale tohle zase funguje spolehlive i na ponekud
nestandardni
| > > HTML dokumenty a navic to ony "nestandardni" HTML dokumenty samo
| > > znormalizuje. Tenhle postup vyzaduje mit nainstalovany modul PyXML.

To je paráda, mockrát vám pánové děkuji. Nemáte někdo link na dokumentaci
pythonu kde by nebylo error404? Zmirroroval jsem si python.org ale je to
celkem k ničemu.

| starsich verzich PyXML byl parser benevolentnejsi ke vstupu a nektere
| testovaci HTML soubory mne ted uz nefunguji. Specialne ty, ktere jsou
| vytvorene wordem a vypadaji na prvni pohled jako z jine planety.

Muzete mi prosim sdelit onu starsi verzi, ktera funguje lepe? Ze bych ji
podstrcil pythonu 2.1/win32?
 
| > Ja osobne bych se priklanel k prostemu parsovani textu, tedy pres
| > findy stringu nebo modul re. Uz jenom z duvodu rychlosti...
| To zas jo. Pokud ovsem neni potreba delat nejake sofistikovanejsi
| filtrovani nekterych nechtenych tagu, konverze apod.

Vyzkousim obe verze. Mozna ale to filtrovani officovskych tagu ála <o:p> by
nebylo k zahozeni, tak uvidim

Zdraví J. Lukeš


Další informace o konferenci Python