私は現在、Web アーカイブ プロジェクトに取り組んでいます。基本的に、私たちがやろうとしているのは、(ヘリトリックス クローラーを使用して) Web サイトのコレクションをアーカイブし、Web インターフェイスを介してアーカイブされたコンテンツへのアクセスを提供することです。
また、アーカイブ全体で全文検索も提供しています。現在、インデックスはNutchwax ( heritrix.warc
によって生成されるように、インデックス ファイルに合わせてカスタマイズされた apache Nutch のカスタマイズされたバージョン) を使用して生成されます。Nutchwax は Lucene インデックスをダンプします。それを Solr で使用するには、正しいスキーマを生成するだけです。
これですべて完了し、正常に実行されますが、アーカイブは静的ではなく、.warc
定期的に新しいファイルが生成されます。
今できることは、新しいインデックスを生成し、それを既存のものとマージして、Solr にインポートし直すことです。ただし、そのためには Solr を再起動する必要があります。これは通常の場合です(httpリクエストを介してインデックスを更新する場合)ため、インデックスを「オンザフライ」で更新できれば素晴らしいでしょう。
これをどのように行うことができるか、誰にも考えがありますか?これに対する私の最初.xml
の試みは、Lucene インデックス ファイルからファイルを生成し、それらを Solr にポストすることでした。これは試してみる価値がありますか、それとももっと洗練されたソリューションがありますか?