1

私はMap/Reduceの世界にかなり慣れていないので、Solrでインデックスを作成するためにそれを活用できるかどうかを判断するための最良のオプションを評価しようとしています. 現在、定期的なクロールを使用してデータを取得し、Solr で直接インデックスを作成しています。これは問題なく動作しています。

しかし今後は、Amazon S3 にあるかなりのデータにアクセスする必要があります。現在 S3 に保存されている約 500 万のデータがあり、インデックスを作成する必要があります。Amazon Elastic Map/Reduce (EMR) を使用して S3 からコンテンツに直接アクセスし、その後 Solr でインデックスを作成することを考えています。データ構造は単純で、url (一意) は S3 キー、値は XML ファイルです。URL は Solr のドキュメント ID として使用され、XML データの関連部分は Solr インデックスのフィールドとして保存されます。

私の質問は、EMR が正しいアプローチであるかどうかです。タスクは、S3 からデータにアクセスし、XML から特定の要素を抽出し、何らかの処理を行ってから、Solr API を呼び出してインデックスを生成することです。処理部分では、データにインデックスを付ける前に、いくつかのクラス (おそらくコマンド パターンのチェーン) が必要です。それは達成可能なものですか?レデューサーが必要ですか、それともマッパーを使用してプロセスを実行できますか? レデューサーが必要な場合、その範囲はどうなりますか? 現在、データを格納している単一のインデックスがあります。

これに関する指針は高く評価されます。

ありがとう

4

1 に答える 1

0

MapReduceIndexer ツールを使用してみることができます。apache-sole からダウンロードできます。これは contrib モジュールの一部です。

于 2014-05-22T08:31:59.150 に答える