Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
最初にWARCファイルからいくつかの中間ファイル( html形式など)を抽出してハードディスクに保存せずに、 WARCファイルを直接Solrに索引付けできますか?
つまり、ハードディスクに何も保存せずに、これらのファイルにインデックスを付けることができるでしょうか?
これらのファイルに必要なスキーマの種類が明確でないため、クライアントで実行する必要があります。次に、コンテンツをストリーミング形式でメモリに展開し、必要に応じてクライアント側の Tika で処理し、必要なドキュメント表現を Solr に送信します。