[python] detektor znakove sady
superman
feed na centrum.cz
Středa Srpen 1 16:48:52 CEST 2007
Já si myslím, že je naprosto bláhové hledat nějakou detekci charsetu,
která by pracovala s nějakou větší úspěšností. To je zkrátka nemožné a
jakákoli detekce je jenom vážený odhad, a nikdy nemůže dát spolehlivé
výsledky. Jak to ta knihovna na detekci má poznat? Zvlášť pokud je
knihovna mezinárodní, pak je úspěšnost u podobných charsetů jen dost
neurčitá. Nikdy nenajdete knihovnu na detekci charsetu, na jejíž
výsledek se dá spolehnout. Nejde to, je to algoritmicky neřešitelná
úloha. Pokud na tom závisí Váš program, doporučuji ho navrhnout jinak.
Miloslav Ponkrác
Martin Blazik napsal(a):
> Ahoj,
> hledam knihovnu, ktera by dokazala rozpoznat kodovani retezce. Podarilo
> se mi najit akorat
> http://chardet.feedparser.org/
> ale to na muj vkus nevykazuje dostatecne vysledky:
>
> # psano v konozli v ISO-8859-2
> >>> s = 'příšerně žluťoučký kůň úpěl ďábelské ódy PŘÍŠERĚ ŽLUŤOUČKÝ KŮŇ
> ÚPĚL ĎÁBELSKÉ ÓDY'
> >>> chardet.detect(s)
> {'confidence': 0.40226801246065391, 'encoding': 'ISO-8859-8'}
>
>
> Nemate nekdo nejaky tip?
>
> lachtan
>
> _______________________________________________
> Python mailing list
> Python na py.cz
> http://www.py.cz/mailman/listinfo/python
>
>
Další informace o konferenci Python