hadoop - Amazon EMR: EMR インスタンスごとに固有の数のマッパーとリデューサーを設定する

Question

M 個のコアインスタンスと N 個のタスクインスタンスを持つ Amazon EMR クラスターを実行しています。

私のジョブは 1 日に複数回実行され、時間に敏感なので、S3 との間のデータ転送のオーバーヘッドがないように、M コアインスタンスを 24 時間年中無休で稼働させています。

N 個のタスクノードは、必要に応じて動的に起動および終了されます。

M 個のコアノードは c1.mediums で、N 個のタスクノードは m2.xlarge です。

インスタンスごとに mapred.tasktracker.map.tasks.maximum と mapred.tasktracker.reduce.tasks.maximum を設定する方法はありますか?

必要なコアノードの場合: mapred.tasktracker.map.tasks.maximum=2 mapred.tasktracker.reduce.tasks.maximum=1

少なくとも必要なタスクノードの場合: mapred.tasktracker.map.tasks.maximum=2 mapred.tasktracker.reduce.tasks.maximum=2

タスクトラッカーはコアノードでも実行されることに注意してください。したがって、この構成は、インスタンスのサイズに応じてインスタンスごとに行う必要があると思います。

これは可能ですか？もしそうなら、どうすればこのタイプの構成をセットアップできますか?

score -1 · Accepted Answer

ただし、タスクノードへの sshing を少しいじる必要があるかもしれないことに注意してください。それだけではうまくいきません。

私は自分のpemファイルをローカルディレクトリに置きます。

そのpemファイルのchmod 400

次に、「scp -l hadoop -i .pem を実行してから、残りの部分を実行します」

ブログで述べたように、私はまだこれを試していませんが、うまくいくと思います. また、.versions... は必要ないかもしれません。おそらくconfが必要になるだけです。

ありがとう

1 に答える 1