php - PHPで「テキスト」PDFと「画像」PDFを区別するにはどうすればよいですか?

Question

最近、Xpdf の一部であるコマンドを使用してテキストベースの PDF をテキストに変換したり、 (Ghostscript) とコマンドpdftotextの組み合わせを使用して画像ベースの PDF をテキストに変換したりできるように、Linux サーバーをセットアップしました。.gstesseract

PDF がテキストベースか画像ベースかがわかっている場合、どちらのソリューションもうまく機能します。ただし、多くの PDF をテキストに変換するプロセスを自動化するには、PDF がテキストベースか画像ベースかを判別して、PDF で実行する一連のプロセスを把握できる必要があります。

PHPでPDFを分析し、それがテキストベースか画像ベースかを判断して、XpdfまたはGhostscript/Tesseractを使用するかどうかを知る方法はありますか?

score 0 · Accepted Answer

出力を比較し、OCR 実行の結果のテキストが Xpdf 実行の出力と同じかどうかを判断することは、簡単な作業ではありません。OCRable ではない PDF テキスト (非常に小さな文字など) の場合、テキストを xpdf で抽出できる場合、多くの不必要な意味不明な文で終わることさえあります。

完全なPDFではなく、PDFとOCRから画像を抽出することをお勧めします。こちらです

テキストを比較する必要はありません [1]。
画像が PDF にどのように含まれているかによって、OCR の結果が向上する場合もあります。
また、クリアテキストとして含まれるテキストを不必要に OCR することも避けます。

すでに xpdf を使用pdfimages -allしているため、画像の抽出に使用できます。

[1] これは 100% 正しいわけではありません。PDF は、画像の「背後」に ORed テキストレイヤーが既に存在するサンドイッチ PDF である可能性があります。

php - PHPで「テキスト」PDFと「画像」PDFを区別するにはどうすればよいですか?

2 に答える 2

Related

Reference