0

PDF ファイル拡張子は、マジック署名によって検証できます。25 50 44 46

ただし、PDF にテキストまたは画像が含まれているかどうかを検出したい (つまり、PDF に ctrl+f で検索できるテキストが含まれているかどうか、またはスキャンされたドキュメントが含まれているかどうか)

これを行う方法はありますか?

4

1 に答える 1

1

技術的には、PDF ドキュメントの構造を解析して、テキストを含む要素を探すことができます。これを実現するには大変な労力が必要になると思います。

したがって、事前に作成された PDF パッケージを使用して解析を行うことができます (PDFBox、BfoPDF など)。とはいえ、実現するにはそれなりの努力が必要だと思います。

私が知っている最も簡単な方法は、プレーンテキストを抽出できるパッケージを使用することです。Apache TIKA はこれを行うことができます。ドキュメントをフィードして、何かが返ってくるかどうかを確認してください。

いずれにせよ、画像とテキストの両方を含む PDF を分類するのは困難です。

于 2013-06-20T14:56:58.940 に答える