こんにちは私はマップがパフォーマンスをより良く低下させることを理解したいと思います。
Hadoopに実装されているMapReduceアルゴリズムのパフォーマンスを支配するものは何ですか?
ノードで処理する必要のあるデータが多い場合、それは計算時間ですか、それともディスクの書き込み時間と読み取り時間ですか?
いくつかのマップリデュースプログラムを実行したとき、ディスクの読み取り時間と比較して、ディスクの書き込み時間が長いことに気づきました。
ディスク書き込みのオーバーヘッドが、ノードで大量のデータを処理するために必要な計算時間(CPU時間)よりもはるかに大きいかどうかを知りたいです。I / Oアクセスと比較してCPU時間は取るに足らないですか?
以下のアルゴリズムは、各リデュースノードで発生するものです。このアルゴリズムを実行するためのCPU時間は、HDFSからの入力を読み取り、HDFSへの出力の書き込みを処理した後と比較して、取るに足らないものかどうかを知りたいです。
Input : R is a multiset of records sorted by the increasing order of their sizes; each record has been canonicalized by a global ordering O; a Jaccard similarity threshold t
Output : All pairs of records hx, yi, such that sim(x, y) > t
1 S <- null;
2 Ii <- null (1 <= i <= |U|);
3 for each x belongs to R do
4 p <- |x| - t * |x| + 1;
5 for i = 1 to p do
6 w <- x[i];
7 for each (y, j) belongs to Iw such
that |y|>= t*|x| do /* size filtering on |y| */
8 Calculate similarity s = (x intersection y) /* Similarity calculation*/
9 if similarity>t
S <- S U (x,y);
10 Iw <- Iw Union {(x, i)}; /* index the current prefix */;
11 return S