[python] SAX
tdc
tdc na phreaker.net
Sobota Listopad 5 13:57:18 CET 2005
Nevim jak SAX (ten asi tezko), ale vim minimalne o dvou jinych kandidatech.
s = """
<html>
<body>
</html>
</body>
"""
1) balik twisted z http://twistedmatrix.com/
from twisted.web import microdom
x = microdom.parseString(s, beExtremelyLenient=1)
print x.toprettyxml()
2) modul BeautifulSoup z http://www.crummy.com/software/BeautifulSoup/
from BeautifulSoup import BeautifulSoup
x = BeautifulSoup(s)
print x.prettify()
Nevyhody u obou - nemusi to opravit vsechno a je to POMALE! Na opravu
dat (napriklad z webu, kde o validite nemuzete rozhodnout sam) je to ok,
ale zpracovavat takto vetsi dokumenty (natozpak vlastni) je plytvani
strojovym casem. Pokud to XML generujete sam z nejakych vlastnich
zdroju, nemel by snad byt problem si validni XML vygenerovat. V kazdem
pripade tohle by mela byt opravdu posledni cesta, jak se ke spravnemu
XML dostat.
tdc
Další informace o konferenci Python