mapreduce - データセットを結合するための map reduce?

Question

document_ids (検索エンジン、nosql データベース、自己開発のセマンティックインデックス作成アプリケーション) を使用してドキュメントを保存する 3 つの異なるソリューションがあります。

私はすべての異なるソリューションに対してクエリを実行しており、SQL JOIN に似たものを使用してそれらをマージしたいと考えています。これは、document_id で結合する必要がある 3 つ以上の異なるデータセットを持つ場合があることを意味します。

この問題を解決するには、Hadoop での Map Reduce または同様の方法が最適な方法であるかどうかご存じですか? これらのデータセットには、1 つの document_id から 100,000 までの任意の場所を含めることができます。

お時間をいただきありがとうございます。

score 0 · Accepted Answer

ドキュメントを結合する前のドキュメント処理中に大量の CPU を適用する必要がある場合は、Hadoop が適しています。同一ジョブ処理文書内（MAP機能内）では比較的簡単に結合エンジンとしてシャッフル処理を利用することができます。
同時に、100K アイテムの単純な結合には、控えめな RDBMS 以上は必要ありません。

score 0 · Accepted Answer

そのような小さなデータセットの場合、ほとんど何でも機能します。特に、すべてのデータが簡単にメモリに収まるため、インメモリシステムをお勧めします。GridGainは、そのようなソリューションの 1 つです (完全なインメモリ MapReduce、SQL などをサポートしています)。

mapreduce - データセットを結合するための map reduce?

2 に答える 2

Related

Reference