python - スキャンした PDF からのテキスト抽出

Question

私の問題は、たくさんの PDF ファイルがあり、それらをテキストファイルに変換したいということです。それらのいくつかは純粋な PDF ですが、中にはページをスキャンしたものもあります。私はpythonでプログラムを書いているので、pdftotextを使ってそれらをTXTに変換しています。

以下のコマンドを使用しています

filename = glob.glob(src)  //src is my directory with my files 
    for file in filename:
        subprocess.call(["pdftotext", file])

私が尋ねたいのは、変換前にスキャンされたページをチェックして、pdftotext でゴーストスクリプトコマンドを使用してそれらを操作できるようにする方法があるかどうかです。今のところ、.txt ファイルのサイズをチェックするためのしきい値があり、そのしきい値を下回っている場合は、ghostscript コマンドを使用してそれらを操作しています。

問題は、pdftotext を使用しても、90 ページのうち 50 または 60 ページがスキャンされる大きなサイズのファイルの場合、ファイルのサイズが常にしきい値を超えることです。

score 0 · Accepted Answer

「純粋な」PDF ファイルには、画像を含めることができます。

PDF ファイルがスキャンされたページかどうかを見分ける簡単な方法はありません。あなたの最善の策は、ページコンテンツストリームを分析して、それらが画像だけで構成されているかどうかを確認することだと思います (一部のスキャナーは、1 つのスキャンされたページを複数の画像に分割します)。それらはスキャンされたページであると想定できますが、いずれにせよ、Ghostscript を使用してそれらからテキストを取得することはできません。

もう 1 つの方法は、Ghostscript 用の pdf_info.ps プログラムを使用して、フォントの使用を一覧表示することです。フォントなし == テキストなし。ただし、フォントが存在する可能性がありますが、まだテキストはありません。また、これはページごとに機能するとは思いません。

python - スキャンした PDF からのテキスト抽出

1 に答える 1

Related

Reference