3

1TBEBSボリュームのAmazonWebServices EC2インスタンスでSolrを実行してインデックスを保存し、同じ(読み取り専用)インデックスで追加のサーバーを簡単に起動できるようにします。ただし、インデックスはまもなく1TBを超えるため、インデックスを保持するために複数のEBSボリュームをストライピングすることはあまり望んでいません。また、インデックスの再生成は非常に遅いです。必要に応じて個別のHadoopサーバーをセットアップできますが、インデックス生成(および場合によってはホスティング)をHadoopに移動し、できればAmazonのElasticMapReduceに移動したいと思います。RightScaleを使用しているため、ServerTemplatesのライブラリを利用できます。

HadoopでLucene/Solrの使用を開始するのに最適な場所はどこですか?

4

2 に答える 2

1

インデックスはシャーディングされていますか? インデックスをシャードし、シャードを複数のインスタンスに分散できます。

于 2011-07-10T13:28:29.270 に答える
1

エラスティックサーチを見てください。一括読み込みのために、Hadoop から ElasticSearch にインデックスを付けることができます。Infochimps は、Wonderdog と呼ばれる ElasticSearch バルク インデクサーをオープン ソース化しており、概念実証を確認することができます。

https://github.com/infochimps/wonderdog http://www.elasticsearch.com

これはクラウド フレンドリーで (発見のための cloud-aws プラグインを参照)、ノードを追加してインデックスを保持することでスケールアップ/ダウンできます。

于 2011-06-04T01:55:12.200 に答える