PDFMiner を使用して外国語の PDF ファイルからテキストを抽出しようとしていますが、ToUnicode ステートメントによって失敗しています。このファイルは、通常の PDF ビューアでも奇妙な動作をします。
たとえば、ファイル内の一部のテキストのスクリーンショットを次に示します。
しかし、テキストを選択してコピーすると、次のようになります。
िनरि</p>
いくつかの文字、特に最後から 2 番目の文字が変更されていることがわかります。
当然のことながら、PDFMiner は間違ったテキストを抽出します。しかし、どの PDF ビューアでもこれらのデータを正しく表示できます。問題は、ToUnicode マップか、文字が結合されたものであると思われます。目的の文字は、0x915、0x94D、0x937 のシーケンスである必要があります。PDFMiner は、別の文字を表す 0x915 のみを報告します。
PDFMiner がテキストを正しく抽出するには、つまり、コピーして貼り付けたテキストではなく画像のようにするにはどうすればよいですか?
問題の PDF へのリンクを次に示します。