[python] Problem s unicode.
superman
feed na centrum.cz
Pondělí Duben 14 14:10:55 CEST 2008
> >No to trochu prehanis, sjednoceny byly graficky odlisne znaky se shodnym
> >vyznamem.
Aha, a proč jsou v Unicode zvlášť třeba indické číslice, zvlášť arabské,
proč jsou tam některé číslice superscriptem, atd...? Proč když by
stačilo tam tu jedničku mít jednou a ne v x možných podobách? Protože to
co píšete, není pravda. Pravda je to co říkám, že sice Unicode
consortium mlží tak, až se za ním práší - ve skutečnosti najdete v
Unicode mnoho příkladů, kde je znak v jednom významu ve více podobách.
Problém je prostě v "nemístném šetření bajtíků" - Unicode consortium
začínalo na 16 bitech - a tak se jim tam všechny asijské znaky do tohoto
rozsahu 65535 znaků prostě nevešly. Dnes je sice na 21 bitech, ale se
znaky nad 16 bitovou hranicí má obrovská spousta systémů a
programovacích jazyků problém, takže je nutné vše základní mít v 16
bitech. Prostě špatná práce a odhad Unicode consortia.
A protože samozřejmě nechtěli nakrknout asijce - a asi víte, že nemohou
říct naplno - "Víte my Unicode consortium jsme to špatně vymysleli celý
ten systém Unicode, a někdo to holt odskákat musí. A rozhodli jsme se,
že to odnesete Vy - a že jsme nuceni Vám Vaší abecedu zprznit, protože
prostě na Vás dlabeme, nám se ta Vaše abeceda už do prostoru znaků
nevejde a jiné státy by řvaly víc - oni nás totiž sponzorují víte? A
chápete, že love, prachy, to je to co dneska hýbe světem, takže se
přizpůsobte a polibte nám zadek". Ačkoli předchozí věty by na 100%
odpovídaly pravdě, zajisté chápete, že na mezinárodní úrovni se takto
nejedná, a je nutné vymyslet kladný důvod, kterým se to zastře a
vysvětlí. A ten důvod je, že "Unicode sjednocuje znaky se stejným
významem" - ale že je to lež jako věž Vás přesvědčí i letmý průchod
Unicode tabulkami znaků.
>Navic maji mnozi z CJK pocit, ze na ne byla unifikace v unicode
uvalena systemem "o nas bez nas", ackoliv byli jejich zastupci v unicode
kosorciu aktivni od zacatku. Japonsky zastupce (zamestnanec tusim DECu,
tedy americke fimy a vyrazneho zastance unifikace) hlasoval pro
unifikaci, korejci a cinani proti. Cela politicka stranka tehle
zalezitosti je neprehledna a alespon trochu masla na hlave maji vsichni.
No a čem píšu? Prostě Unicode to špatně vymyslelo, a někdo prostě to
musel odnést, protože na všechny abecedy není v 16bitovém Unicode
systému místo. A protože všichni, firmy i consortia se řídí prachama -
tak to odnesl ten, kdo byl mimo - tedy Asiaté. Viz výše.
Obecná rada: Musíte když něco čtete, číst mezi řádky a nenechat si
nabulíkovat každou blbost.
Miloslav Ponkrác
Další informace o konferenci Python