analysis - テラバイトのデータのMapReduceアルゴリズム？

Question

この質問には、「正しい」答えは1つもありません。

クラスター上でテラバイトのデータに対してMapReduceアルゴリズムを実行することに興味があります。

上記のアルゴリズムの実行時間についてもっと知りたいです。

どんな本を読むべきですか？

MapReduceクラスターのセットアップや標準アルゴリズムの実行には興味がありません。厳密な理論的処理または実行時間が必要です。

編集：問題は、マップが変更の実行時間を短縮することではありません。問題は、ほとんどのアルゴリズムがマップリデュースフレームワークにうまく分散しないことです。マップリデュースフレームワークで実行されるアルゴリズムに興味があります。

score 4 · Accepted Answer

技術的には、「標準」アルゴリズムと比較して、MapReduce の実行時分析に実際の違いはありません。MapReduce は、他のアルゴリズムとまったく同じです (具体的には、複数のステップで発生し、それらのステップ間に特定の相互作用があるアルゴリズムのクラスです)。）。

MapReduce ジョブの実行時間は、複数のマシンにまたがるタスクの分割を考慮して、各ステップに必要な個々のマシンの最大時間を見つけた場合、通常のアルゴリズム分析が予測する方法と同じようにスケーリングされます。

つまり、M 個のマップ操作と R 個のリデュース操作を必要とするタスクが N 台のマシンで実行されており、平均的なマップ操作に m 回、平均的なリデュース操作に r 回かかると予想される場合、次のようになります。ceil(M/N)*m + ceil(R/N)*r問題のすべてのタスクを完了するために予想される実行時間。

M、R、m、および r の値の予測はすべて、MapReduce にプラグインするアルゴリズムの通常の分析で達成できるものです。

score 1 · Accepted Answer

私が知っている書籍は 2 冊しか出版されていませんが、さらに多くの書籍が進行中です。

Pro HadoopとHadoop: 決定版ガイド

これらのうち、Pro Hadoop は初心者向けの本ですが、The Definitive Guide は Hadoop が実際に何であるかを知っている人向けです。

私は The Definitive Guide を所有しており、優れた本だと思います。MapReduce、Pig、Hive、HBase などのさまざまな関連トピックをカバーするだけでなく、HDFS がどのように機能するかについての優れた技術的詳細を提供します。しばらく Hadoop の開発に従事し、現在はclouderaで働いています。

アルゴリズムの分析が Hadoop で行われている限り、TeraByte ソートベンチマークを見ることができます。Yahoo は、Hadoop がこの特定のベンチマークでどのように機能するかについての記事を作成しました: TeraByte Sort on Apache Hadoop。この論文は2008年に書かれました。

2009 年の結果の詳細については、こちらをご覧ください。

analysis - テラバイトのデータのMapReduceアルゴリズム？

3 に答える 3

Related

Reference