PDF ファイル拡張子は、マジック署名によって検証できます。25 50 44 46
ただし、PDF にテキストまたは画像が含まれているかどうかを検出したい (つまり、PDF に ctrl+f で検索できるテキストが含まれているかどうか、またはスキャンされたドキュメントが含まれているかどうか)
これを行う方法はありますか?
技術的には、PDF ドキュメントの構造を解析して、テキストを含む要素を探すことができます。これを実現するには大変な労力が必要になると思います。
したがって、事前に作成された PDF パッケージを使用して解析を行うことができます (PDFBox、BfoPDF など)。とはいえ、実現するにはそれなりの努力が必要だと思います。
私が知っている最も簡単な方法は、プレーンテキストを抽出できるパッケージを使用することです。Apache TIKA はこれを行うことができます。ドキュメントをフィードして、何かが返ってくるかどうかを確認してください。
いずれにせよ、画像とテキストの両方を含む PDF を分類するのは困難です。