java - 初期入力ファイルを Hadoop MapReduce のノードに配布する方法は?

Question

2 台のコンピューターを備えた Hadoop クラスターがあり、1 台はマスターとして、もう 1 台はスレーブとして使用しています。入力データはマスターのローカルディスクに存在し、入力データファイルも HDFS システムにコピーしました。ここで私の質問は、このクラスターで MapReduce タスクを実行すると、入力ファイル全体が 1 つのシステムにのみ存在することです [これは、MapReduce の基本原則である「データの局所性」に反すると思います]。入力ファイルをクラスターの異なるノードに分散できるように、初期ファイルを分散/分割するメカニズムがあるかどうかを知りたいです。

score 0 · Accepted Answer

クラスターがノード 1 とノード 2 で構成されているとします。ノード 1 がマスターの場合、そのノードで実行されているデータノードはありません。"so that the input files can be distributed on the different nodes of the cluster"したがって、ノード 2 にはデータノードしかありません。現在のセットアップでは、データを保存できるノードが 1 つしかないため、何を言っているのかわかりません。

ただし、一般的な n ノードクラスターを検討する場合、データを HDFS にコピーすると、データは Hadoop 自体によってクラスターの異なるノードに分散されるため、そのことを心配する必要はありません。

java - 初期入力ファイルを Hadoop MapReduce のノードに配布する方法は?

1 に答える 1

Related

Reference