3

そのため、.pdf ファイルがあり、それが PDF にスキャンして作成されたかどうかを判断できる必要があります。テキストとして表示できるPDFかどうかを判断しようとしています。

PHPとZendを自由に使用できます。Zendのを使用できるかもしれないと考えています

$pdf->properties['Producer']

しかし、私は100%確信が持てません。

扱っている .pdf ファイルの種類を確認する方法はありますか?

4

2 に答える 2

3

私には難しいように聞こえます。さまざまな「プロデューサー」ID がたくさんあります。その多くは、スキャンされたもの、ファックス、ワープロなど、あらゆる種類のソースからの PDF の生成をサポートしています。PDF ファイルを作成するには非常に多くの方法があるため、何がどこから来たのかを突き止めることはできません。

テキストとして表示できるかどうかを判断したい場合は、そこから実際のテキストを抽出してみませんか? スキャンされた (または他の種類の埋め込み画像) 場合、テキスト コンテンツはまったく含まれていないか、ほとんど含まれていません。しかし、その後、機械可読テキストを含むスキャン PDF を作成する OCR プログラムもあります。それにどう対処したいですか?

これであなたの最終的な目標は何ですか?

于 2010-03-04T19:34:37.117 に答える