最近、Xpdf の一部であるコマンドを使用してテキストベースの PDF をテキストに変換したり、 (Ghostscript) とコマンドpdftotext
の組み合わせを使用して画像ベースの PDF をテキストに変換したりできるように、Linux サーバーをセットアップしました。.gs
tesseract
PDF がテキストベースか画像ベースかがわかっている場合、どちらのソリューションもうまく機能します。ただし、多くの PDF をテキストに変換するプロセスを自動化するには、PDF がテキスト ベースか画像ベースかを判別して、PDF で実行する一連のプロセスを把握できる必要があります。
PHPでPDFを分析し、それがテキストベースか画像ベースかを判断して、XpdfまたはGhostscript/Tesseractを使用するかどうかを知る方法はありますか?