Pythonでファイルをさらに処理するために.pdfファイルをテキストに変換するためにpdftotextを使用しようとしていますが、次の問題が発生しています:
一部のファイルの出力は次のようになりますが、一部の .pdf ファイルでは機能します (これは間違っています)。
(0)
(0)
(0)
(0)
(0)
(0)
000 0000000 0000000000 0000000 00000 000 00
000000000 0000 0000 0000000 00000000000 00000000
000000 000 0000000 000000.
000 000000 0000000 00000000 0000000 0 00000
00000 00 0000000 000000.
これを見ると、1 つの 0 文字がちょうど 1 つの文字を表しているように思えます。
だから私の質問は、何が間違っている可能性がありますか? また、pdftotext の出力を修正するにはどうすればよいですか?