java - Hadoop は EMR を永久に使用し、EMR をプロファイリングします

Question

S3 で約 500 個のドキュメントに対してサンプルの Hadoop ジョブを実行しています。ローカルで実行すると、完了までに 15 分未満かかります。しかし、EMR で同じジョブを実行しようとすると、2 時間以上かかり、それでも削減ステップが完了しないため、終了しました。MapReduceEMR でのジョブにこれほど時間がかかる特定の理由はありますか?

また、同じように、ボトルネックがどこにあるかを確認するために EMR をプロファイリングする最良の方法は何でしょうか? ログファイルが完了するまでレデューサーからログファイルを取得できないようですが、完了するまでに時間がかかりすぎています..

score 1 · Accepted Answer

AWS EMR での私の経験から、メモリ設定 (タスクをマップまたは削減するために割り当てる量)、タスクに割り当てる全体的な RAM、およびヒープサイズの構成がパフォーマンスに大きな役割を果たすことがわかりました。以下のリンクにはいくつかの情報が含まれており、Google 検索で残りの情報が明らかになるはずです。

http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/TaskConfiguration.html

java - Hadoop は EMR を永久に使用し、EMR をプロファイリングします

1 に答える 1

Related

Reference