1

Amazon Elastic MapReduceで使用/利用可能なインスタンスに応じて、使用するHadoopマッパーとレデューサーの適切な数を計算するための最良の方法は何ですか?(mahout-core-0.7ディストリビューションのRecommenderJobを使用)

4

1 に答える 1

1

一般的な Hadoop の回答が適用されます。

  • Hadoop にマッパーの数を選択させる
  • クラスター内の reduce スロットの数と同じ数の reducer を設定します

EMR の場合、使用しているインスタンス タイプでデフォルトで実行されるリデューサーの数を調べます: http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/HadoopMemoryDe​​fault_AMI2.3.html

次に、使用しているワーカーの数を掛けます。これは非常に理想的なレデューサーの数です。

これらが最適ではないと考える特定の理由がわかるまで、私はこれを使用します.

PS ワーカーにスポット インスタンスを使用して、お金を節約したり、より多くのワーカーをデプロイしたりすることを忘れないでください。

Ad break : Mahout とレコメンデーションに興味があり、EMR で実行している場合は、おそらくMyrrixを見ているは​​ずです。私は創設者であり、あなたが現在実行しているいくつかの Mahout コードの作成者でもあります。これは「次世代」の Hadoop ベースのレコメンダー製品であり、とりわけ EMR 向けに十分に最適化されています。

于 2013-03-06T22:27:08.380 に答える