2

最初にWARCファイルからいくつかの中間ファイル( html形式など)を抽出してハードディスクに保存せずに、 WARCファイルを直接Solrに索引付けできますか?

つまり、ハードディスクに何も保存せずに、これらのファイルにインデックスを付けることができるでしょうか?

4

2 に答える 2

0

これらのファイルに必要なスキーマの種類が明確でないため、クライアントで実行する必要があります。次に、コンテンツをストリーミング形式でメモリに展開し、必要に応じてクライアント側の Tika で処理し、必要なドキュメント表現を Solr に送信します。

于 2014-09-01T19:12:56.903 に答える