python - Pythonで特殊文字を含むファイルを読み取る方法

Question

Apache Tika を使用して pdf、html、doc ファイルをクロールし、構造化テキストをテキストファイルに保存しました。これらのテキストファイルには、特殊文字が含まれているため、それらのテキストファイルを読み取ることができません。以下のコードスニペットを読む必要があります。ファイル

fo = codecs.open('/var/www/testfiles/sample.txt','r','utf-8').read()

しかし、次のエラーが表示されます

UnicodeDecodeError: 'utf8' codec can't decode byte 0xb7 in position 1291: invalid start byte

テキストファイルの読み方を教えてください。ありがとう

score 0 · Accepted Answer

「errors」キーワードパラメータをデフォルトの strict 以外に設定する必要があります。可能性のリスト (Python 3.3 の場合)は、ここにあります。リストは「codecs.register()」ドキュメントに列挙されています。

何を扱っているかを確認できるように、「置換」オプションから始めます。

1 に答える 1