2 台のコンピューターを備えた Hadoop クラスターがあり、1 台はマスターとして、もう 1 台はスレーブとして使用しています。入力データはマスターのローカル ディスクに存在し、入力データ ファイルも HDFS システムにコピーしました。ここで私の質問は、このクラスターで MapReduce タスクを実行すると、入力ファイル全体が 1 つのシステムにのみ存在することです [これは、MapReduce の基本原則である「データの局所性」に反すると思います]。入力ファイルをクラスターの異なるノードに分散できるように、初期ファイルを分散/分割するメカニズムがあるかどうかを知りたいです。
1050 次
1 に答える
0
クラスターがノード 1 とノード 2 で構成されているとします。ノード 1 がマスターの場合、そのノードで実行されているデータノードはありません。"so that the input files can be distributed on the different nodes of the cluster"
したがって、ノード 2 にはデータノードしかありません。現在のセットアップでは、データを保存できるノードが 1 つしかないため、何を言っているのかわかりません。
ただし、一般的な n ノード クラスターを検討する場合、データを HDFS にコピーすると、データは Hadoop 自体によってクラスターの異なるノードに分散されるため、そのことを心配する必要はありません。
于 2013-06-28T18:07:37.207 に答える