parallel-processing - 同じデータセットへのクエリへのストリームを処理する場合の効率的なMapReduce

Question

大規模な静的データセットがあり、それに適用する関数があります。

fはreduce（map（f、dataset））の形式なので、MapReduceスケルトンを使用します。ただし、リクエストごとにデータを分散させたくありません（理想的には、fを高速化するためにインデックス作成を利用したいと思います）。この一般的なケースに対処するMapReduceの実装はありますか？

IterativeMapReduceを調べたところ、おそらくそれでうまくいくかもしれませんが、少し異なるケースに対処しているようで、コードはまだ利用できません。

score 0 · Accepted Answer

HadoopのMapReduce（およびGoogleに触発された他のすべてのmap-reduceスケルトン）は、データを常に分散させるわけではありません。

parallel-processing - 同じデータセットへのクエリへのストリームを処理する場合の効率的なMapReduce

1 に答える 1

Related

Reference