[python] detektor znakove sady
Martin Blazik
martin.blazik na premiumsms.cz
Středa Srpen 1 17:20:12 CEST 2007
Muj program pracuje nastesti s UTF-8. Bohuzel mam ale stare informace,
ktere potrebuji prevest. Mam tam jazyky jako madarstinu, polstinu,
rustinu a dalsi. Ja takovou knihovnu napriklad pro cestinu napsanou mam
a musim rict ze funguje s dost slusnou presnosti. Takze nejde o to
poznat to kodovani na 100%, ale s rozumnou presnosti. Chyby jsou
povoleny, ale nesmi jich byt moc. Naopak si myslim, ze situace resitelna
pomerne rozumne je, ale radsi bych pouzil stavajici knihovnu nez si psal
vlastni reseni.
lachtan
superman napsal(a):
> Já si myslím, že je naprosto bláhové hledat nějakou detekci charsetu,
> která by pracovala s nějakou větší úspěšností. To je zkrátka nemožné a
> jakákoli detekce je jenom vážený odhad, a nikdy nemůže dát spolehlivé
> výsledky. Jak to ta knihovna na detekci má poznat? Zvlášť pokud je
> knihovna mezinárodní, pak je úspěšnost u podobných charsetů jen dost
> neurčitá. Nikdy nenajdete knihovnu na detekci charsetu, na jejíž
> výsledek se dá spolehnout. Nejde to, je to algoritmicky neřešitelná
> úloha. Pokud na tom závisí Váš program, doporučuji ho navrhnout jinak.
>
> Miloslav Ponkrác
>
> Martin Blazik napsal(a):
>> Ahoj,
>> hledam knihovnu, ktera by dokazala rozpoznat kodovani retezce. Podarilo
>> se mi najit akorat
>> http://chardet.feedparser.org/
>> ale to na muj vkus nevykazuje dostatecne vysledky:
>>
>> # psano v konozli v ISO-8859-2
>> >>> s = 'příšerně žluťoučký kůň úpěl ďábelské ódy PŘÍŠERĚ ŽLUŤOUČKÝ KŮŇ
>> ÚPĚL ĎÁBELSKÉ ÓDY'
>> >>> chardet.detect(s)
>> {'confidence': 0.40226801246065391, 'encoding': 'ISO-8859-8'}
>>
>>
>> Nemate nekdo nejaky tip?
>>
>> lachtan
>>
>> _______________________________________________
>> Python mailing list
>> Python na py.cz
>> http://www.py.cz/mailman/listinfo/python
>>
>>
> _______________________________________________
> Python mailing list
> Python na py.cz
> http://www.py.cz/mailman/listinfo/python
>
Další informace o konferenci Python