php - PDFページからZend_Pdfを使用してテキストを抽出する方法

Question

PDFのページからテキストを抽出するのを手伝ってくれる人はいますか?

<?php
$pdf = Zend_Pdf::load('example.pdf');
$page = $pdf->page[0];

ページメソッドが存在すると思いますが、コンテンツを抽出できるものが見つかりませんでした。

例: $page->getContents(); $page->toString(); $page->extractText();

...ヘルプ！！！！これは私を夢中にさせています！

score 2 · Accepted Answer

これがサポートされていないように見えるというアンディに同意します。別の方法として、 Zend_Search_Lucene で使用するために PDF からテキストを抽出する Shaun Farrell のソリューションを見てください。彼はXPDFを使用していますが、これもあなたのニーズを満たす可能性があります。

score 0 · Accepted Answer

マニュアルから、この機能がサポートされているようには見えません。また、新しいテキストは、drawText（）関数を使用して書き込まれます。この関数は、プレーンな「デコード可能な」テキストではなく、画像を書き込んでいるように見えます。

2 に答える 2