イタリア語を含むテキストファイルのエンコーディングを検出するためにchardetを使用しています。問題は、正しい検出がiso-8859-1であるのに対し、それらのエンコーディングを常にiso-8859-2として検出することです。誰かが修正を知っていますか?私の母国語はポーランド語に設定されていますか?それは検出に影響を与える可能性がありますか?
質問する
464 次
1 に答える
1
chardetはiso-8859-1をサポートしていないため、検出されません。サポートされている文字エンコードについては、chardetsのホームページ(http://pypi.python.org/pypi/chardet )を参照してください。
Linuxプログラムの「ファイル」を使用してさまざまなコンテンツの文字エンコードを取得していますが、それがどれほど安全かはわかりません。質問を参照してください-Pythonでのエンコード検出、chardetライブラリを使用するかどうか。。しかし、これまでのところ、すばらしい結果が得られています。
ところで、あなたの現地の言語は検出に影響を与えるべきではありません。
于 2012-11-27T21:30:28.777 に答える