そのため、.pdf ファイルがあり、それが PDF にスキャンして作成されたかどうかを判断できる必要があります。テキストとして表示できるPDFかどうかを判断しようとしています。
PHPとZendを自由に使用できます。Zendのを使用できるかもしれないと考えています
$pdf->properties['Producer']
しかし、私は100%確信が持てません。
扱っている .pdf ファイルの種類を確認する方法はありますか?
そのため、.pdf ファイルがあり、それが PDF にスキャンして作成されたかどうかを判断できる必要があります。テキストとして表示できるPDFかどうかを判断しようとしています。
PHPとZendを自由に使用できます。Zendのを使用できるかもしれないと考えています
$pdf->properties['Producer']
しかし、私は100%確信が持てません。
扱っている .pdf ファイルの種類を確認する方法はありますか?
私には難しいように聞こえます。さまざまな「プロデューサー」ID がたくさんあります。その多くは、スキャンされたもの、ファックス、ワープロなど、あらゆる種類のソースからの PDF の生成をサポートしています。PDF ファイルを作成するには非常に多くの方法があるため、何がどこから来たのかを突き止めることはできません。
テキストとして表示できるかどうかを判断したい場合は、そこから実際のテキストを抽出してみませんか? スキャンされた (または他の種類の埋め込み画像) 場合、テキスト コンテンツはまったく含まれていないか、ほとんど含まれていません。しかし、その後、機械可読テキストを含むスキャン PDF を作成する OCR プログラムもあります。それにどう対処したいですか?
これであなたの最終的な目標は何ですか?