[python] Problem s unicode.
superman
feed na centrum.cz
Čtvrtek Duben 10 16:12:38 CEST 2008
> >Unicode je ideal pro prezentaci vsech znaku, ktery se musi nakonec prekodovat
> >do bytoveho retezce (taky nazyvan plainstring, bytestring...).
>
>
V našich končinách to asi platí, ale ono není pravda, že Unicode dokáže
reprezentovat všechny znaky používaných znakových sad. Zvláště v Asii
velmi protestují proti používání Unicode - protože není s to
reprezentovat znaky jejich národních znakových sad. Proto třeba autor
Ruby (Japonec) nikdy nezavedl používání Unicode jakožto základní sady
pro řetězce v Ruby. Problém je největší pitomost v sw inženýrství zvaná
"šetření bajtíků stylem po nás potopa", jaká způsobilo problém třeba
roku 2000, a tatáž pitomost zamotala Unicode natolik, že ten bordel je
teď dost veliký. Takže pro asijské jazyky se převádějí znaky do Unicode
přes proces zvaný "han unification", což je de facto "ztrátová
komprese", která několik různých odlišných znaků mapuje na stejný jeden
Unicode znak - ztrácí se tím tedy informace a není divu, že Asiaté si o
Unicode myslí jen to nejhorší, a rozhodně Unicode nehodlají používat.
Takže v našich končinách asi nenarazíte, ale v případě mezinárodního
programu byste se mohl rychle dostat do toho, že byste zásadně
přeprogramovával, a už by Vás to nikdy v budoucnu nenapadlo takhle dělat.
Miloslav Ponkrác
Další informace o konferenci Python