[python] [:lower:] apod.?
propanbutan
propanbutan na gmx.net
Pátek Březen 31 13:27:53 CEST 2017
Alexandr Rosen <alexandr.rosen na ff.cuni.cz> wrote:
> 1. Jak udelat, aby v tom re_lower byly vsecky lowercase znaky z
> UTF-8? Tedy nejen ty z cp1250 nebo iso-8859-2, ale i iso-8859-1,
> iso-8859-5 (cyrilice), rectina, to by mozna uz stacilo... Spojit ty
> stringy a vyhodit duplicity? Nebo by to slo nejak jednodusejs?
spojit leda po prevedeni do unicode, pac ty hex-escaped znaky davaji
smysl jen pro dane kodovani. nebo projet celou unicode tabulku jako
vespod [1]
> 2. Jak udelat, abych vstupni soubor v utf-8 nacet opravdu jako utf8
> string?
v pythonu mate bud objekt typu str, vite v jakem je kodovani, a do
unicode reprezentace ho prevedete pomoci str.decode(obj, enc)
>>> 'řř'.decode('iso-8859-2')
u'\u0159\u0159'
nebo mate unicode, ktery pomoci unicode.encode prevedete do ceho
to jen pujde
>>> u'\0159\u0159'.encode('iso-8859-2')
'\xf8\xf8'
>>> 'řř'.encode('hex')
'f8f8'
vestaveny file cte a pise str, kdyz codecs.open [2] date kodovani,
muzete cist a psat unicode
[1] http://www.py.cz/pipermail/python/2008-January/007056.html
[2] http://docs.python.org/lib/module-codecs.html
Další informace o konferenci Python