[python] Problem s unicode.

superman feed na centrum.cz
Pondělí Duben 14 14:10:55 CEST 2008


> >No to trochu prehanis, sjednoceny byly graficky odlisne znaky se shodnym
> >vyznamem.
Aha, a proč jsou v Unicode zvlášť třeba indické číslice, zvlášť arabské, 
proč jsou tam některé číslice superscriptem, atd...? Proč když by 
stačilo tam tu jedničku mít jednou a ne v x možných podobách? Protože to 
co píšete, není pravda. Pravda je to co říkám, že sice Unicode 
consortium mlží tak, až se za ním práší - ve skutečnosti najdete v 
Unicode mnoho příkladů, kde je znak v jednom významu ve více podobách.

Problém je prostě v "nemístném šetření bajtíků" - Unicode consortium 
začínalo na 16 bitech - a tak se jim tam všechny asijské znaky do tohoto 
rozsahu 65535 znaků prostě nevešly. Dnes je sice na 21 bitech, ale se 
znaky nad 16 bitovou hranicí má obrovská spousta systémů a 
programovacích jazyků problém, takže je nutné vše základní mít v 16 
bitech. Prostě špatná práce a odhad Unicode consortia.

A protože samozřejmě nechtěli nakrknout asijce - a asi víte, že nemohou 
říct naplno - "Víte my Unicode consortium jsme to špatně vymysleli celý 
ten systém Unicode, a někdo to holt odskákat musí. A rozhodli jsme se, 
že to odnesete Vy - a že jsme nuceni Vám Vaší abecedu zprznit, protože 
prostě na Vás dlabeme, nám se ta Vaše abeceda už do prostoru znaků 
nevejde a jiné státy by řvaly víc - oni nás totiž sponzorují víte? A 
chápete, že love, prachy, to je to co dneska hýbe světem, takže se 
přizpůsobte a polibte nám zadek". Ačkoli předchozí věty by na 100% 
odpovídaly pravdě, zajisté chápete, že na mezinárodní úrovni se takto 
nejedná, a je nutné vymyslet kladný důvod, kterým se to zastře a 
vysvětlí. A ten důvod je, že "Unicode sjednocuje znaky se stejným 
významem" - ale že je to lež jako věž Vás přesvědčí i letmý průchod 
Unicode tabulkami znaků.

 >Navic maji mnozi z CJK pocit, ze na ne byla unifikace v unicode 
uvalena systemem "o nas bez nas", ackoliv byli jejich zastupci v unicode 
kosorciu aktivni od zacatku. Japonsky zastupce (zamestnanec tusim DECu, 
tedy americke fimy a vyrazneho zastance unifikace) hlasoval pro 
unifikaci, korejci a cinani proti. Cela politicka stranka tehle 
zalezitosti je neprehledna a alespon trochu masla na hlave maji vsichni.

No a čem píšu? Prostě Unicode to špatně vymyslelo, a někdo prostě to 
musel odnést, protože na všechny abecedy není v 16bitovém Unicode 
systému místo. A protože všichni, firmy i consortia se řídí prachama - 
tak to odnesl ten, kdo byl mimo - tedy Asiaté. Viz výše.

Obecná rada: Musíte když něco čtete, číst mezi řádky a nenechat si 
nabulíkovat každou blbost.

Miloslav Ponkrác




Další informace o konferenci Python