これを解決する最善の方法は、「xpdf」パッケージにある「pdftotext」を使用することでしたが、すべての共有ホストで、shell_execが無効になっていることをグーグルで検索しました。pdf2string() と呼ばれる関数 (php.net 上) のような php のみを使用する代替メソッドを見つけましたが、これらの関数はどれも期待どおりに機能しませんでした (一部の pdf ファイルでは正しいテキストが出力されず、他の一部の pdf では機能しませんでした)。それらは何も出力せず、この関数の他のバージョンはまったく機能しなかったため、このオプションを除外しました)。そのオープンソースのpdftotextをphpスクリプトに変換する方法はありますか? (ソースは C++ であると思いますが、ここで見つけることができます: http://www.foolabs.com/xpdf/download.html ) . PDFのテキスト出力(正しいもの)が得られる限り、他の解決策は受け入れられます
8872 次
1 に答える
3
制限された環境があるため、これを確認することをお勧めします。 http://webcheatsheet.com/php/reading_clean_text_from_pdf.php
これは、pdf をテキスト形式に解析するために外部ライブラリを使用しません。ただし、これは生のpdf形式からテキストを解析するため、どれほど安定しているかはわかりません。
于 2012-04-18T22:45:07.260 に答える