[python] detektor znakove sady

superman feed na centrum.cz
Středa Srpen 1 16:48:52 CEST 2007


Já si myslím, že je naprosto bláhové hledat nějakou detekci charsetu, 
která by pracovala s nějakou větší úspěšností. To je zkrátka nemožné a 
jakákoli detekce je jenom vážený odhad, a nikdy nemůže dát spolehlivé 
výsledky. Jak to ta knihovna na detekci má poznat? Zvlášť pokud je 
knihovna mezinárodní, pak je úspěšnost u podobných charsetů jen dost 
neurčitá. Nikdy nenajdete knihovnu na detekci charsetu, na jejíž 
výsledek se dá spolehnout. Nejde to, je to algoritmicky neřešitelná 
úloha. Pokud na tom závisí Váš program, doporučuji ho navrhnout jinak.

Miloslav Ponkrác

Martin Blazik napsal(a):
> Ahoj,
> hledam knihovnu, ktera by dokazala rozpoznat kodovani retezce. Podarilo 
> se mi najit akorat
> http://chardet.feedparser.org/
> ale to na muj vkus nevykazuje dostatecne vysledky:
> 
> # psano v konozli v ISO-8859-2
>  >>> s = 'příšerně žluťoučký kůň úpěl ďábelské ódy PŘÍŠERĚ ŽLUŤOUČKÝ KŮŇ 
> ÚPĚL ĎÁBELSKÉ ÓDY'
>  >>> chardet.detect(s)
> {'confidence': 0.40226801246065391, 'encoding': 'ISO-8859-8'}
> 
> 
> Nemate nekdo nejaky tip?
> 
> lachtan
> 
> _______________________________________________
> Python mailing list
> Python na py.cz
> http://www.py.cz/mailman/listinfo/python
> 
> 


Další informace o konferenci Python