Apache Tika を使用して pdf、html、doc ファイルをクロールし、構造化テキストをテキスト ファイルに保存しました。これらのテキスト ファイルには、特殊文字が含まれているため、それらのテキスト ファイルを読み取ることができません。以下のコード スニペットを読む必要があります。ファイル
fo = codecs.open('/var/www/testfiles/sample.txt','r','utf-8').read()
しかし、次のエラーが表示されます
UnicodeDecodeError: 'utf8' codec can't decode byte 0xb7 in position 1291: invalid start byte
テキストファイルの読み方を教えてください。ありがとう