1

私は現在、Web アーカイブ プロジェクトに取り組んでいます。基本的に、私たちがやろうとしているのは、(ヘリトリックス クローラーを使用して) Web サイトのコレクションをアーカイブし、Web インターフェイスを介してアーカイブされたコンテンツへのアクセスを提供することです。

また、アーカイブ全体で全文検索も提供しています。現在、インデックスはNutchwax ( heritrix.warcによって生成されるように、インデックス ファイルに合わせてカスタマイズされた apache Nutch のカスタマイズされたバージョン) を使用して生成されます。Nutchwax は Lucene インデックスをダンプします。それを Solr で使用するには、正しいスキーマを生成するだけです。

これですべて完了し、正常に実行されますが、アーカイブは静的ではなく、.warc定期的に新しいファイルが生成されます。

今できることは、新しいインデックスを生成し、それを既存のものとマージして、Solr にインポートし直すことです。ただし、そのためには Solr を再起動する必要があります。これは通常の場合です(httpリクエストを介してインデックスを更新する場合)ため、インデックスを「オンザフライ」で更新できれば素晴らしいでしょう。

これをどのように行うことができるか、誰にも考えがありますか?これに対する私の最初.xmlの試みは、Lucene インデックス ファイルからファイルを生成し、それらを Solr にポストすることでした。これは試してみる価値がありますか、それとももっと洗練されたソリューションがありますか?

4

1 に答える 1

1

おそらく、複数のコアの使用を活用して、必要なことを達成できます。詳細については、SolrWiki-CoreAdminを参照してください。MergeIndexes機能またはコアを交換する機能を活用して、シナリオでのエクスペリエンスを向上させることができると思います。

于 2012-03-27T13:48:29.877 に答える