2 ノードの Hadoop (1 つはマスター/スレーブ、もう 1 つはスレーブ) のセットアップと、サイズがそれぞれ 1GB の 4 つの入力ファイルがあります。dfs.replicate を 2 に設定すると、データ全体が理解できる両方のノードにコピーされます。しかし、私の質問は、単一ノードのセットアップよりもパフォーマンスの向上 (ほぼ 2 倍) を確認するにはどうすればよいかということです。 2 つのマッパーからレデューサーへの入力のチャネリングのオーバーヘッド。
また、レプリケーションを 1 に設定すると、データ全体がマスター ノードにのみ存在します。これは、イーサネットのオーバーヘッドを回避するためにも理解できます。しかし、この場合でも、単一ノードのセットアップと比較してパフォーマンスの向上が見られますが、これは混乱を招きます。map-reduce はローカル データ セットで実行されるため、このシナリオは基本的に、1 つの map-reduce プログラムをマスターで実行する単一ノードのセットアップと似ているはずです。データ セット全体のノード ??
誰かが私がここで欠けているものを理解するのを手伝ってくれますか???
ありがとうパワン