1

私は現在、Pythonプログラムのテキストインデクサーを探しています。LuceneプロジェクトであるSolrと、PythonにネイティブなWhooshを最終候補に挙げました。doc、docx、pdfファイルのサポートに関する多くのドキュメントを検索しましたが、SolrはTikaパッケージを指摘し続けました。TikaパッケージのバージョンはSolrと統合されています。

いずれかのパッケージに3つの形式のサポートが組み込まれている場合、結果には特定の用語が記載されていません。WhooshとSolrはそれらをサポートしていますか?これらの形式をネイティブに読み取る他のオープンソースインデクサーはどれですか?

4

1 に答える 1

3

Solr 1.4以降では、WordおよびPDFファイルをその場でアップロードして索引付けすることができます。参照:http ://wiki.apache.org/solr/ExtractingRequestHandler

SolrのExtractingRequestHandlerはTikaを使用して、ユーザーがバイナリファイルをSolrにアップロードし、Solrにテキストを抽出させてからインデックスを作成できるようにします。

于 2011-07-16T11:12:38.033 に答える