5

私は Symfony 開発者で、Web サーバーは Linux です。私はすでに sfLucene プラグインを使用しています。

Linux PHP サーバーで検索用に PDF ファイルをインデックス化する最も簡単な方法は何ですか?

  1. XPDF 、このようにインストール
  2. SOLR sfLucene プラグイン ブランチ経由のApache Tika
  3. 第三の選択肢?

ありがとう!

4

2 に答える 2

3

Zendのバックグラウンドから来ているので、私は通常Zend_Search_Luceneを使用することをお勧めします。XPDFの例は本当に単純で、単純に見えます。XPDFはGPLとしてライセンスされています-それがあなたのニーズに合うなら、#1に行きましょう!

ZFは、 Twitter Callなど、Symfonyプロジェクトに簡単に統合できます。

于 2010-03-02T16:15:49.143 に答える
2

PDF からテキスト コンテンツを抽出するためのライブラリは多数あります。これらのいずれかを使用して、コンテンツを含む lucene ドキュメントを作成する必要があります。最も有用なものは、既に lucene が統合されているものです。

Apache PDFBox は、PDF ファイルから直接 lucene ドキュメントを作成できます。PDF メタデータ フィールドとテキスト コンテンツが含まれます。

于 2010-03-03T15:51:52.673 に答える