lucene - HadoopでLucene/Solrを実行するための最良の方法は何ですか？

Question

1TBEBSボリュームのAmazonWebServices EC2インスタンスでSolrを実行してインデックスを保存し、同じ（読み取り専用）インデックスで追加のサーバーを簡単に起動できるようにします。ただし、インデックスはまもなく1TBを超えるため、インデックスを保持するために複数のEBSボリュームをストライピングすることはあまり望んでいません。また、インデックスの再生成は非常に遅いです。必要に応じて個別のHadoopサーバーをセットアップできますが、インデックス生成（および場合によってはホスティング）をHadoopに移動し、できればAmazonのElasticMapReduceに移動したいと思います。RightScaleを使用しているため、ServerTemplatesのライブラリを利用できます。

HadoopでLucene/Solrの使用を開始するのに最適な場所はどこですか？

score 1 · Accepted Answer

インデックスはシャーディングされていますか? インデックスをシャードし、シャードを複数のインスタンスに分散できます。

score 1 · Accepted Answer

エラスティックサーチを見てください。一括読み込みのために、Hadoop から ElasticSearch にインデックスを付けることができます。Infochimps は、Wonderdog と呼ばれる ElasticSearch バルクインデクサーをオープンソース化しており、概念実証を確認することができます。

https://github.com/infochimps/wonderdog http://www.elasticsearch.com

これはクラウドフレンドリーで (発見のための cloud-aws プラグインを参照)、ノードを追加してインデックスを保持することでスケールアップ/ダウンできます。

lucene - HadoopでLucene/Solrを実行するための最良の方法は何ですか？

2 に答える 2

Related

Reference