2

PDFのページからテキストを抽出するのを手伝ってくれる人はいますか?

<?php
$pdf = Zend_Pdf::load('example.pdf');
$page = $pdf->page[0];

ページメソッドが存在すると思いますが、コンテンツを抽出できるものが見つかりませんでした。

例: $page->getContents(); $page->toString(); $page->extractText();

...ヘルプ!!!!これは私を夢中にさせています!

4

2 に答える 2

2

これがサポートされていないように見えるというアンディに同意します。別の方法として、 Zend_Search_Lucene で使用するために PDF からテキストを抽出する Shaun Farrell のソリューションを見てください。彼はXPDFを使用していますが、これもあなたのニーズを満たす可能性があります。

于 2010-03-22T21:02:47.923 に答える
0

マニュアルから、この機能がサポートされているようには見えません。また、新しいテキストは、drawText()関数を使用して書き込まれます。この関数は、プレーンな「デコード可能な」テキストではなく、画像を書き込んでいるように見えます。

于 2010-03-22T16:03:38.737 に答える