M 個のコア インスタンスと N 個のタスク インスタンスを持つ Amazon EMR クラスターを実行しています。
私のジョブは 1 日に複数回実行され、時間に敏感なので、S3 との間のデータ転送のオーバーヘッドがないように、M コア インスタンスを 24 時間年中無休で稼働させています。
N 個のタスク ノードは、必要に応じて動的に起動および終了されます。
M 個のコア ノードは c1.mediums で、N 個のタスク ノードは m2.xlarge です。
インスタンスごとに mapred.tasktracker.map.tasks.maximum と mapred.tasktracker.reduce.tasks.maximum を設定する方法はありますか?
必要なコア ノードの場合: mapred.tasktracker.map.tasks.maximum=2 mapred.tasktracker.reduce.tasks.maximum=1
少なくとも必要なタスク ノードの場合: mapred.tasktracker.map.tasks.maximum=2 mapred.tasktracker.reduce.tasks.maximum=2
タスク トラッカーはコア ノードでも実行されることに注意してください。したがって、この構成は、インスタンスのサイズに応じてインスタンスごとに行う必要があると思います。
これは可能ですか?もしそうなら、どうすればこのタイプの構成をセットアップできますか?