0

Apache Tika を使用して pdf、html、doc ファイルをクロールし、構造化テキストをテキスト ファイルに保存しました。これらのテキスト ファイルには、特殊文字が含まれているため、それらのテキスト ファイルを読み取ることができません。以下のコード スニペットを読む必要があります。ファイル

fo = codecs.open('/var/www/testfiles/sample.txt','r','utf-8').read()

しかし、次のエラーが表示されます

UnicodeDecodeError: 'utf8' codec can't decode byte 0xb7 in position 1291: invalid start byte

テキストファイルの読み方を教えてください。ありがとう

4

1 に答える 1

0

「errors」キーワード パラメータをデフォルトの strict 以外に設定する必要があります。可能性のリスト (Python 3.3 の場合)は、ここにあります。リストは「codecs.register()」ドキュメントに列挙されています。

何を扱っているかを確認できるように、「置換」オプションから始めます。

于 2013-08-02T10:26:25.353 に答える