0

S3 で約 500 個のドキュメントに対してサンプルの Hadoop ジョブを実行しています。ローカルで実行すると、完了までに 15 分未満かかります。しかし、EMR で同じジョブを実行しようとすると、2 時間以上かかり、それでも削減ステップが完了しないため、終了しました。MapReduceEMR でのジョブにこれほど時間がかかる特定の理由はありますか?

また、同じように、ボトルネックがどこにあるかを確認するために EMR をプロファイリングする最良の方法は何でしょうか? ログファイルが完了するまでレデューサーからログファイルを取得できないようですが、完了するまでに時間がかかりすぎています..

4

1 に答える 1

1

AWS EMR での私の経験から、メモリ設定 (タスクをマップまたは削減するために割り当てる量)、タスクに割り当てる全体的な RAM、およびヒープ サイズの構成がパフォーマンスに大きな役割を果たすことがわかりました。以下のリンクにはいくつかの情報が含まれており、Google 検索で残りの情報が明らかになるはずです。

http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/TaskConfiguration.html

于 2013-08-07T18:46:57.877 に答える