1

最近、Xpdf の一部であるコマンドを使用してテキストベースの PDF をテキストに変換したり、 (Ghostscript) とコマンドpdftotextの組み合わせを使用して画像ベースの PDF をテキストに変換したりできるように、Linux サーバーをセットアップしました。.gstesseract

PDF がテキストベースか画像ベースかがわかっている場合、どちらのソリューションもうまく機能します。ただし、多くの PDF をテキストに変換するプロセスを自動化するには、PDF がテキスト ベースか画像ベースかを判別して、PDF で実行する一連のプロセスを把握できる必要があります。

PHPでPDFを分析し、それがテキストベースか画像ベースかを判断して、XpdfまたはGhostscript/Tesseractを使用するかどうかを知る方法はありますか?

4

2 に答える 2

0

出力を比較し、OCR 実行の結果のテキストが Xpdf 実行の出力と同じかどうかを判断することは、簡単な作業ではありません。OCRable ではない PDF テキスト (非常に小さな文字など) の場合、テキストを xpdf で抽出できる場合、多くの不必要な意味不明な文で終わることさえあります。

完全なPDFではなく、PDFとOCRから画像を抽出することをお勧めします。こちらです

  • テキストを比較する必要はありません [1]。
  • 画像が PDF にどのように含まれているかによって、OCR の結果が向上する場合もあります。
  • また、クリア テキストとして含まれるテキストを不必要に OCR することも避けます。

すでに xpdf を使用pdfimages -allしているため、画像の抽出に使用できます。

[1] これは 100% 正しいわけではありません。PDF は、画像の「背後」に ORed テキスト レイヤーが既に存在するサンドイッチ PDF である可能性があります。

于 2016-09-26T12:13:06.383 に答える