2

M 個のコア インスタンスと N 個のタスク インスタンスを持つ Amazon EMR クラスターを実行しています。

私のジョブは 1 日に複数回実行され、時間に敏感なので、S3 との間のデータ転送のオーバーヘッドがないように、M コア インスタンスを 24 時間年中無休で稼働させています。

N 個のタスク ノードは、必要に応じて動的に起動および終了されます。

M 個のコア ノードは c1.mediums で、N 個のタスク ノードは m2.xlarge です。

インスタンスごとに mapred.tasktracker.map.tasks.maximum と mapred.tasktracker.reduce.tasks.maximum を設定する方法はありますか?

必要なコア ノードの場合: mapred.tasktracker.map.tasks.maximum=2 mapred.tasktracker.reduce.tasks.maximum=1

少なくとも必要なタスク ノードの場合: mapred.tasktracker.map.tasks.maximum=2 mapred.tasktracker.reduce.tasks.maximum=2

タスク トラッカーはコア ノードでも実行されることに注意してください。したがって、この構成は、インスタンスのサイズに応じてインスタンスごとに行う必要があると思います。

これは可能ですか?もしそうなら、どうすればこのタイプの構成をセットアップできますか?

4

1 に答える 1

-1

ここに素晴らしいブログがあります - それはあなたに答えを与えます. http://blog.earlh.com/index.php/2013/05/modifying-the-number-of-mappers-or-reducers-on-a-running-emr-cluster/

ただし、タスク ノードへの sshing を少しいじる必要があるかもしれないことに注意してください。それだけではうまくいきません。

私は自分のpemファイルをローカルディレクトリに置きます。

そのpemファイルのchmod 400

次に、「scp -l hadoop -i .pem を実行してから、残りの部分を実行します」

ブログで述べたように、私はまだこれを試していませんが、うまくいくと思います. また、.versions... は必要ないかもしれません。おそらくconfが必要になるだけです。

ありがとう

于 2013-10-03T11:21:25.820 に答える