[python] xml parsování
starenka .
starenka0 na gmail.com
Úterý Srpen 13 13:50:22 CEST 2019
tak spatny xml se obcas prihodi, kdyz to nejakej jouda generuje nejak
obskurne, nebo se ti usekne stream nebo nevimcoeste.... lxml ucrite umi
podoktorovat html, mozna i xml....
---
In Perl you shoot yourself in the foot, but nobody can understand how you
did it. Six months later, neither can you. | print 'aknerats'[::-1]
On Tue, Aug 13, 2019 at 1:06 PM Petr Messner <petr.messner na gmail.com> wrote:
> Jak jako vadný tag? Potom to není XML.
>
> Na HTML použij HTML parser.
>
> Petr Messner
>
> 13. 8. 2019 v 11:30, Ondrej Beranek <rainbof na gmail.com>:
>
> > Ahoj,
> >
> > když jste to tu tak nakousli, když bych chtěl zpracovávat xml streamy
> > předem neznámého obsahu, co na to použít ? Potřebuju aby se to
> > nesložilo když přijde nějaký vadný tag abych měl šanci si to ošetřit.
> > Tak než začnu psát kolo...
> >
> > rainbof
> >
> > 13.08.19, Petr Messner <petr.messner na gmail.com>:
> >> V těchto případech je asi nejednodušší xpath. Minimálně lxml ho umí.
> >>
> >> PM
> >>
> >> út 13. 8. 2019 v 8:22 odesílatel Ctibor.Plasek <Ctibor.Plasek na seznam.cz
> >
> >> napsal:
> >>
> >>> Ahoj.
> >>> Mám takovýto xml soubor (viz.přiložený soubor) - export z ffprobe.
> >>> Pro ty hodnoty, které jsou u <stream používám toto:
> >>>
> >>> from xml.dom import minidom
> >>> xmldoc = minidom.parse('RainS02E06.mkv.xml')
> >>> streamlist = xmldoc.getElementsByTagName('stream')
> >>> for s in streamlist:
> >>> print(s.attributes['index'].value)
> >>> print(s.attributes['codec_name'].value)
> >>> try:
> >>> print(s.attributes['sample_rate'].value)
> >>> except:
> >>> print('none')
> >>>
> >>> ale nevím jakým způsobem se dostat k těm "hlubším" hodnotám - např.
> >>> <tag key="DURATION-eng" - jaká je např.hodnota value u stream index="1"
> >>>
> >>> Mohli byste mi, prosím, poradit?
> >>>
> >>> Děkuji Ctibor
> >>>
> >>>
> >>>
> >>>
> >>> _______________________________________________
> >>> Python mailing list
> >>> python na py.cz
> >>> http://www.py.cz/mailman/listinfo/python
> >>>
> >>> Visit: http://www.py.cz
> >>>
> >>
> > _______________________________________________
> > Python mailing list
> > python na py.cz
> > http://www.py.cz/mailman/listinfo/python
> >
> > Visit: http://www.py.cz
> _______________________________________________
> Python mailing list
> python na py.cz
> http://www.py.cz/mailman/listinfo/python
>
> Visit: http://www.py.cz
>
------------- další část ---------------
HTML příloha byla odstraněna...
URL: <http://www.py.cz/pipermail/python/attachments/20190813/d8672f8f/attachment.html>
Další informace o konferenci Python