[python] Unicode řetězce

Pondělí Únor 6 18:22:27 CET 2006

> Zkuste se kouknout sem (to je to Wiki):
> 
> http://www.py.cz/UnicodeEncodeCestina
> http://www.py.cz/VJakemKodovaniJeSouborUlozen

OK, diky.

> Zakladem je vedet, v jakem kodovani je vstup - to se da zjistit velmi
> tezko. Pak je vhodne prevest vstup do unicode a v programu pracovat
> pouze s unicode, protoze v unicode ma kazdy znak stejnou delku. Takze
> treba
>>>> s = u"ěščřž"
>>>> len(s)
> 5
>>>> s = "ěščřž" (vstup je v utf-8)
>>>> len(s)
> 10
> 
> Pri vystupu na uzivatele uz zase musite znaku zakodovat do
> pozadovaneho kodovani.

No, asi takto. Defacto by melo stacit pouzivat nativni kodovani systemu,
protoze se potom vsechny udaje ukladaji do xml, a to by snad melo byt
kodovane podle hlavicky. Potom se ty udaje z xml zase nactou a mely by
byt v UTF-8. Jenze potom kdyz pridam nejaky retezec v nativnim kodovani,
bude v tom bordel.

Zkusim se tim nejak prokousat a uvidim. BTW: Jak se da ukladat dobre
xml, kdyz nepocitam posloupnost print prikazu? Parsuju to pomoci sax,
ale da se to tak i ukladat?