0

m1.large マシンを使用して、ec2 で 16 ノードの Hadoop クラスターを実行しています。Hadoop が実行している愚かなスケジューリングが原因で、パフォーマンスの問題に直面しています。糸で hadoop-2.2.0 を使用しています。

正確な問題は次のとおりです。

クラスターで wordcount プログラムを実行しています。ワードカウントを実行する必要があるデータ全体が 4 GB あります。私は現在、4つのレデューサーで試しています。残念ながら、4 つのレデューサーはすべて同じマシン上でスケジュールされているため、パフォーマンスが大幅に低下しています。これを回避できる方法はありますか。削減タスクの負荷分散を改善するスケジューリング ポリシーはありますか。

PS: Hadoop が高性能を目的としていないことは理解していますが、特定の map reduce プログラムをベンチマークする必要があり、スケジューリングが不十分であるとベンチマークに大きな影響を与えます。

ありがとう

4

0 に答える 0