<div dir="ltr"><div>V čem je tvůj parser nový/lepší/inovativnější/rychlejší než cokoliv co je třeba v tomto článku? <a href="http://blog.ianbicking.org/2008/03/30/python-html-parser-performance/">http://blog.ianbicking.org/2008/03/30/python-html-parser-performance/</a><br>
<br></div>H<br></div><div class="gmail_extra"><br><br><div class="gmail_quote">2013/1/13 Bystroushaak <span dir="ltr"><<a href="mailto:bystrousak@kitakitsune.org" target="_blank">bystrousak@kitakitsune.org</a>></span><br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div class="im">> Takze pokud chces smysluplny reseni, bylo by lepsi napsat jakej<br>
> problem skutecne resis<br>
<br>
</div>No, to je právě to. Mám vlastní HTML parser<br>
(<a href="https://github.com/Bystroushaak/pyDHTMLParser" target="_blank">https://github.com/Bystroushaak/pyDHTMLParser</a>), u kterého jsem nedávno<br>
zjistil podstatný bug - pokud je v javascript stringu na stránce vložené<br>
html, parser se úžasným stylem rozbije.<br>
<br>
Zatím jsem nepřišel na to jak to opravit, jediné co mě napadlo je že<br>
obsah <script></script> nahradím nějakým dostatečně náhodným stringem,<br>
přičemž si ho někam odložím.<br>
<br>
Až pak parser zpracuje zbytek DOMu, vrátím to do prázdného <script> tagu<br>
v postprocessingu.<br>
<div class="HOEnZb"><div class="h5"><br>
<br>
_______________________________________________<br>
Python mailing list<br>
<a href="mailto:Python@py.cz">Python@py.cz</a><br>
<a href="http://www.py.cz/mailman/listinfo/python" target="_blank">http://www.py.cz/mailman/listinfo/python</a><br>
</div></div></blockquote></div><br></div>