Amazon Elastic MapReduceで使用/利用可能なインスタンスに応じて、使用するHadoopマッパーとレデューサーの適切な数を計算するための最良の方法は何ですか?(mahout-core-0.7ディストリビューションのRecommenderJobを使用)
1421 次
1 に答える
1
一般的な Hadoop の回答が適用されます。
- Hadoop にマッパーの数を選択させる
- クラスター内の reduce スロットの数と同じ数の reducer を設定します
EMR の場合、使用しているインスタンス タイプでデフォルトで実行されるリデューサーの数を調べます: http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/HadoopMemoryDefault_AMI2.3.html
次に、使用しているワーカーの数を掛けます。これは非常に理想的なレデューサーの数です。
これらが最適ではないと考える特定の理由がわかるまで、私はこれを使用します.
PS ワーカーにスポット インスタンスを使用して、お金を節約したり、より多くのワーカーをデプロイしたりすることを忘れないでください。
Ad break : Mahout とレコメンデーションに興味があり、EMR で実行している場合は、おそらくMyrrixを見ているはずです。私は創設者であり、あなたが現在実行しているいくつかの Mahout コードの作成者でもあります。これは「次世代」の Hadoop ベースのレコメンダー製品であり、とりわけ EMR 向けに十分に最適化されています。
于 2013-03-06T22:27:08.380 に答える