PDFのページからテキストを抽出するのを手伝ってくれる人はいますか?
<?php
$pdf = Zend_Pdf::load('example.pdf');
$page = $pdf->page[0];
ページメソッドが存在すると思いますが、コンテンツを抽出できるものが見つかりませんでした。
例: $page->getContents(); $page->toString(); $page->extractText();
...ヘルプ!!!!これは私を夢中にさせています!
PDFのページからテキストを抽出するのを手伝ってくれる人はいますか?
<?php
$pdf = Zend_Pdf::load('example.pdf');
$page = $pdf->page[0];
ページメソッドが存在すると思いますが、コンテンツを抽出できるものが見つかりませんでした。
例: $page->getContents(); $page->toString(); $page->extractText();
...ヘルプ!!!!これは私を夢中にさせています!
これがサポートされていないように見えるというアンディに同意します。別の方法として、 Zend_Search_Lucene で使用するために PDF からテキストを抽出する Shaun Farrell のソリューションを見てください。彼はXPDFを使用していますが、これもあなたのニーズを満たす可能性があります。
マニュアルから、この機能がサポートされているようには見えません。また、新しいテキストは、drawText()関数を使用して書き込まれます。この関数は、プレーンな「デコード可能な」テキストではなく、画像を書き込んでいるように見えます。