0

イタリア語を含むテキストファイルのエンコーディングを検出するためにchardetを使用しています。問題は、正しい検出がiso-8859-1であるのに対し、それらのエンコーディングを常にiso-8859-2として検出することです。誰かが修正を知っていますか?私の母国語はポーランド語に設定されていますか?それは検出に影響を与える可能性がありますか?

4

1 に答える 1

1

chardetはiso-8859-1をサポートしていないため、検出されません。サポートされている文字エンコードについては、chardetsのホームページ(http://pypi.python.org/pypi/chardet )を参照してください。

Linuxプログラムの「ファイル」を使用してさまざまなコンテンツの文字エンコードを取得していますが、それがどれほど安全かはわかりません。質問を参照してください-Pythonでのエンコード検出、chardetライブラリを使用するかどうか。。しかし、これまでのところ、すばらしい結果が得られています。

ところで、あなたの現地の言語は検出に影響を与えるべきではありません。

于 2012-11-27T21:30:28.777 に答える