java - Solr CELL の ExtractingRequestHandler を使用して、パッケージ形式からファイルをインデックス化/抽出する

Question

ExtractingRequestHandler と Tika を任意の圧縮ファイル形式 (zip、tar、gz など) で使用して、インデックス作成のためにコンテンツを抽出できますか?

curl を使用して solr に archived.tar ファイルを送信しています。curl " http://localhost:8983/solr/update/extract?literal.id=doc1&fmap.content=body_texts&commit=true " -H 'Content-type:application/octet-stream' --data-binary "@/home /archived.tar" ドキュメントをクエリすると、アーカイブ内のファイル名が「body_texts」としてインデックス付けされているという結果が得られますが、それらのファイルのコンテンツは抽出または含まれていません。これは私が期待した動作ではありません。参照: http://www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Content-Extraction-Tika#article.tika.example . 同じcurlコマンドを使用してアーカイブ内の実際のドキュメントの1つを送信すると、抽出されたコンテンツが「body_texts」フィールドに保存されます。

http://outoftime.lighthouseapp.com/projects/20339/tickets/98-solr-cellのマットで示されているように、すべての抽出依存関係を追加し、 MS Word、PDF、HTML ドキュメントからデータを正常に抽出できます。

以下のライブラリバージョンを使用しています。Solr 1.40、Solr Cell 1.4.1、Tika Core 0.4

私が読んだすべてのことを考えると、このバージョンの Tika は、圧縮ファイル内のすべてのファイルからのデータの抽出をサポートするはずです。ヘルプや提案をいただければ幸いです。

score 1 · Accepted Answer

簡単に言えば、Solr Cell 1.4.1 と Tika Core 0.6 です。

長い答え：多くの頭痛の種の後、私はこれを機能させることができました. solr を直接使用している人と、solr を Ruby ライブラリの sunspot で使用している人 (これが私の問題でした) の両方に答えます。

これが私がやったことです: 私はこのhttps://github.com/tomasc/sunspot_cellプラグインを使用して、sunspot を拡張し、添付機能を提供しました。(ルビー/サンスポットを使用していない場合は、この手順を無視してください)

v1.4.1 は個々のファイルでは機能しますが、圧縮ファイルでは機能しないため、少し調査する必要がありました。http://lucene.apache.org/solr/から v1.4.1 コードベースをダウンロードし、dist/apache-solr-cell-1.4.1.jar を取得してから、1.5 ブランチhttpから Tika ライブラリをプルダウンする必要がありました。 ://svn.apache.org/viewvc/lucene/solr/branches/branch-1.5-dev/contrib/extraction/lib/ .

それぞれを個別にダウンロードするか、svn を使用してブランチをチェックアウトできます。

svn co http://svn.apache.org/repos/asf/lucene/solr/branches/branch-1.5-dev

または、ライブラリフォルダーをチェックアウトします。

svn co http://svn.apache.org/repos/asf/lucene/solr/branches/branch-1.5-dev/contrib/extraction/lib/

java - Solr CELL の ExtractingRequestHandler を使用して、パッケージ形式からファイルをインデックス化/抽出する

1 に答える 1

Related

Reference