java - さまざまな種類の PDF を検出する方法

Question

PDF ファイル拡張子は、マジック署名によって検証できます。25 50 44 46

ただし、PDF にテキストまたは画像が含まれているかどうかを検出したい (つまり、PDF に ctrl+f で検索できるテキストが含まれているかどうか、またはスキャンされたドキュメントが含まれているかどうか)

これを行う方法はありますか？

score 1 · Accepted Answer

技術的には、PDF ドキュメントの構造を解析して、テキストを含む要素を探すことができます。これを実現するには大変な労力が必要になると思います。

したがって、事前に作成された PDF パッケージを使用して解析を行うことができます (PDFBox、BfoPDF など)。とはいえ、実現するにはそれなりの努力が必要だと思います。

私が知っている最も簡単な方法は、プレーンテキストを抽出できるパッケージを使用することです。Apache TIKA はこれを行うことができます。ドキュメントをフィードして、何かが返ってくるかどうかを確認してください。

いずれにせよ、画像とテキストの両方を含む PDF を分類するのは困難です。

1 に答える 1