PDFファイルを読み込んでコンテンツを文字列に入れる方法は? PHP言語を使用。
33816 次
4 に答える
8
LinuxのXpdfパッケージに付属するpdftotextのようなものを使用できます。popen コマンドを使用して、pdftotext の出力を文字列にパイプすることができます。
$mystring = "";
$fd = popen("/usr/bin/pdftotext blah.pdf","r");
if ($fd) {
while (($myline = fgets($fd)) !== false) {
$mystring .= $myline;
}
}
于 2011-01-24T10:16:25.897 に答える
2
素敵なクラスを見つけました!さらに、ニーズに合わせて機能を追加できます。
おそらく、これらは機能を追加するのに役立ちます:
うまくいかない場合は、Adobe Reader で開くときにテキストを強調表示/マークできるかどうかを確認してください (できない場合、ファイル内のテキストはおそらく幾何学的曲線として保存されます)。エンコーディングも確認してください。
于 2012-11-20T21:34:20.450 に答える
0
サーバーに APACHE-TIKA をインストールします。APACHE-TIKA は、pdf ファイルよりも多くのファイルをサポートしています。インストールガイド: http://www.acquia.com/blog/use-apache-solr-search-files
そして最終的なコードは簡単です:
$string = "";
$fd = popen("java -jar yourpathtotika/tika-app-1.3.jar -t yourpathtopdf/sample.pdf","r");
while (!feof($fd)) {
$buffer = fgets($fd, 4096);
$string .= $buffer;
}
echo $string;
于 2013-04-10T12:00:18.363 に答える
0
ここで入手できる PHP クラスを使用できます。
これは完全に純粋な PHP で書かれたパブリック ドメインの PDF テキスト エクストラクタです。つまり、外部コマンドに依存する必要はありません。テキストを取得するためのシンプルなインターフェースを提供します。
include ( 'PdfToText.phpclass' ) ;
$pdf = new PdfToText ( 'mysample.pdf' ) ;
echo "PDF contents are : " . $pdf -> Text . "\n" ;
于 2016-08-27T17:20:06.977 に答える