hadoop - ライブの hbase/hadoop クラスターに新しいノードを追加するにはどうすればよいですか?

Question

常に変化するデータ入力を使用していくつかのバッチジョブを実行していますが、容量のプロビジョニングに問題があります。初期セットアップを行うために whirl を使用していますが、たとえば 5 台のマシンを起動すると、実行中に新しいマシンを追加する方法がわかりません。データがどれほど複雑になるか、またはデータがどれだけ大きくなるかは事前にわからないので、新しいマシンをクラスターに追加してすぐに有効にする方法があるかどうか疑問に思っていました (または、少し遅れて有効にしたくありません)。クラスターを停止し、新しいノードで起動する必要があります)。

score 10 · Accepted Answer

ノードを追加する方法の正確な説明があります: http://wiki.apache.org/hadoop/FAQ#I_have_a_new_node_I_want_to_add_to_a_running_Hadoop_cluster.3B_how_do_I_start_services_on_just_one_node.3F

同時に、各タスクを実行する場所の計画はジョブの開始時に行われるため（私が理解している限り）、すでに実行中のジョブがこれらのノードを利用するかどうかはわかりません。
また、これらの一時的なノードでのみタスクトラッカーを実行する方が実用的だと思います。

score 3 · Accepted Answer

以下のパラメーターによって参照されるファイルを確認します。

dfs.hosts => dfs.include
dfs.hosts.exclude
mapreduce.jobtracker.hosts.filename => mapred.include
mapreduce.jobtracker.hosts.exclude.filename

ホストのリストをファイル dfs.include および mapred.include に追加してから実行できます

hadoop mradmin -refreshNodes ;

hadoop dfsadmin -refreshNodes ;

それで全部です。

ところで、「mradmin -refreshNodes」機能は 0.21 で追加されました

ニキル

hadoop - ライブの hbase/hadoop クラスターに新しいノードを追加するにはどうすればよいですか?

2 に答える 2

Related

Reference