ExtractingRequestHandler と Tika を任意の圧縮ファイル形式 (zip、tar、gz など) で使用して、インデックス作成のためにコンテンツを抽出できますか?
curl を使用して solr に archived.tar ファイルを送信しています。curl " http://localhost:8983/solr/update/extract?literal.id=doc1&fmap.content=body_texts&commit=true " -H 'Content-type:application/octet-stream' --data-binary "@/home /archived.tar" ドキュメントをクエリすると、アーカイブ内のファイル名が「body_texts」としてインデックス付けされているという結果が得られますが、それらのファイルのコンテンツは抽出または含まれていません。これは私が期待した動作ではありません。参照: http://www.lucidimagination.com/Community/Hear-from-the-Experts/Articles/Content-Extraction-Tika#article.tika.example . 同じcurlコマンドを使用してアーカイブ内の実際のドキュメントの1つを送信すると、抽出されたコンテンツが「body_texts」フィールドに保存されます。
http://outoftime.lighthouseapp.com/projects/20339/tickets/98-solr-cellのマットで示されているように、すべての抽出依存関係を追加し、 MS Word、PDF、HTML ドキュメントからデータを正常に抽出できます。
以下のライブラリバージョンを使用しています。Solr 1.40、Solr Cell 1.4.1、Tika Core 0.4
私が読んだすべてのことを考えると、このバージョンの Tika は、圧縮ファイル内のすべてのファイルからのデータの抽出をサポートするはずです。ヘルプや提案をいただければ幸いです。