次の内容を含むpdfファイルを読み込もうとしています:
%PDF-1.4\n%âãÏÓ
open で読み取ると動作しますが、codecs.open(filename, encoding="utf8", mode="rb") でユニコード文字列を取得しようとすると、次の例外が発生しました。
UnicodeDecodeError: 'utf8' codec can't decode byte 0xe2 in position 10: invalid continuation byte
このファイルの内容からユニコード文字列を取得する方法を知っていますか?
PS: 私は python 2.7 を使用しています