[python] parsovanie tagov
Tomy novella
tomasnovella na gmail.com
Pondělí Únor 11 12:04:22 CET 2008
preklep ;) ale aj tak to nefunguje ;(
posielam moj doterajsi skript:
-----
#!/usr/bin/python
import urllib,re,os
wwwroot = 'http://minnie.tuhs.org/UnixTree/V7/usr/src/cmd/'
def downloadFile(filename = "index.html"):
print ' Stahujem subor: "' + wwwroot+filename + ' " '
fp = urllib.urlopen(wwwroot+filename)
data = fp.read()
fp.close()
s=file(filename,'w')
s.write(data)
s.close()
def parseAndDownload():
reg = re.compile(r"href=(?P<url>[.a-z]+)\.html")
file = open('index.html','r')
for line in file.readlines():
res = reg.search(line)
if res == None:
print "vzor nenajdeny "
else:# v riadku s najdenym prikazom
url = res.group('url') + ".html"
downloadFile(url)
cmdReg = re.compile(r"<pre>(?P<prikaz> .*)</pre>")
cmdFile = open(url,"r")
cmdRes = cmdReg.search(cmdFile.read())
if cmdRes == None:
print "Chyba!!! nenasiel sa kod v subore v prikazom !"
else:
print cmdRes.group('prikaz')
file.close()
downloadFile()
parseAndDownload()
-----
ide o to, ze chcem stiahnut z tejto stranky vsetky prikazy a
vyparsovat ich zo suboru a (este nenakodene) premenovat na *prikaz*.c
;-)
problem je v tom, ze stale mi pise chybu, ze "nenasiel sa kod v subore
s prikazom" ;(
este by som sa offtopicacky spytal,ze ci je uplne jedno, ci pouzijem
prikaz file(filename,'w') alebo open(filename,'w'), alebo ci je nieco
ztade deprecated, lebo obe varianty funguju ;)
Další informace o konferenci Python