私は Symfony 開発者で、Web サーバーは Linux です。私はすでに sfLucene プラグインを使用しています。
Linux PHP サーバーで検索用に PDF ファイルをインデックス化する最も簡単な方法は何ですか?
- XPDF 、このようにインストール
- SOLR sfLucene プラグイン ブランチ経由のApache Tika
- 第三の選択肢?
ありがとう!
私は Symfony 開発者で、Web サーバーは Linux です。私はすでに sfLucene プラグインを使用しています。
Linux PHP サーバーで検索用に PDF ファイルをインデックス化する最も簡単な方法は何ですか?
ありがとう!
Zendのバックグラウンドから来ているので、私は通常Zend_Search_Luceneを使用することをお勧めします。XPDFの例は本当に単純で、単純に見えます。XPDFはGPLとしてライセンスされています-それがあなたのニーズに合うなら、#1に行きましょう!
ZFは、 Twitter Callなど、Symfonyプロジェクトに簡単に統合できます。
PDF からテキスト コンテンツを抽出するためのライブラリは多数あります。これらのいずれかを使用して、コンテンツを含む lucene ドキュメントを作成する必要があります。最も有用なものは、既に lucene が統合されているものです。
Apache PDFBox は、PDF ファイルから直接 lucene ドキュメントを作成できます。PDF メタデータ フィールドとテキスト コンテンツが含まれます。