常に変化するデータ入力を使用していくつかのバッチ ジョブを実行していますが、容量のプロビジョニングに問題があります。初期セットアップを行うために whirl を使用していますが、たとえば 5 台のマシンを起動すると、実行中に新しいマシンを追加する方法がわかりません。データがどれほど複雑になるか、またはデータがどれだけ大きくなるかは事前にわからないので、新しいマシンをクラスターに追加してすぐに有効にする方法があるかどうか疑問に思っていました (または、少し遅れて有効にしたくありません)。クラスターを停止し、新しいノードで起動する必要があります)。
9539 次
2 に答える
10
ノードを追加する方法の正確な説明があります: http://wiki.apache.org/hadoop/FAQ#I_have_a_new_node_I_want_to_add_to_a_running_Hadoop_cluster.3B_how_do_I_start_services_on_just_one_node.3F
同時に、各タスクを実行する場所の計画はジョブの開始時に行われるため(私が理解している限り)、すでに実行中のジョブがこれらのノードを利用するかどうかはわかりません。
また、これらの一時的なノードでのみタスク トラッカーを実行する方が実用的だと思います。
于 2012-04-23T18:21:18.313 に答える
3
以下のパラメーターによって参照されるファイルを確認します。
- dfs.hosts => dfs.include
- dfs.hosts.exclude
- mapreduce.jobtracker.hosts.filename => mapred.include
- mapreduce.jobtracker.hosts.exclude.filename
ホストのリストをファイル dfs.include および mapred.include に追加してから実行できます
hadoop mradmin -refreshNodes ;
hadoop dfsadmin -refreshNodes ;
それで全部です。
ところで、「mradmin -refreshNodes」機能は 0.21 で追加されました
ニキル
于 2012-04-26T14:48:40.227 に答える