これまでのところ、 pdfminer pdf2txt.pyモジュールを使用して成功しています。
ただし、2 列でフォーマットされた pdf ファイルでは問題が発生します。このモジュールはテキストを 1 つの列に取得し、その結果、行末に多くの単語が分割されます。例:
細胞成分の機能的特性は、物理的および化学的に否定的です。
*単語は「-」文字で区切られていることに注意してください。
私が望むのは、行末の単語が全体として表示されるようにコマンドをカスタマイズして、情報を失わないようにすることです。おそらく、「-」文字がバックスラッシュに置き換えられるように、行パラメーターまたは文字マージンを追加することによってですか?
また、コマンドをループして、pdf ファイルでいっぱいのディレクトリを解析し、元の名前にちなんで名付けられた別の出力テキスト ファイルを生成する方法があるかどうかも知りたいですか?
私はそれを行う方法がわかりません。