私の問題は、たくさんの PDF ファイルがあり、それらをテキスト ファイルに変換したいということです。それらのいくつかは純粋な PDF ですが、中にはページをスキャンしたものもあります。私はpythonでプログラムを書いているので、pdftotextを使ってそれらをTXTに変換しています。
以下のコマンドを使用しています
filename = glob.glob(src) //src is my directory with my files
for file in filename:
subprocess.call(["pdftotext", file])
私が尋ねたいのは、変換前にスキャンされたページをチェックして、pdftotext でゴーストスクリプトコマンドを使用してそれらを操作できるようにする方法があるかどうかです。今のところ、.txt ファイルのサイズをチェックするためのしきい値があり、そのしきい値を下回っている場合は、ghostscript コマンドを使用してそれらを操作しています。
問題は、pdftotext を使用しても、90 ページのうち 50 または 60 ページがスキャンされる大きなサイズのファイルの場合、ファイルのサイズが常にしきい値を超えることです。