0

誰かがこれを経験したことがあれば、私は球場を探しています...

AWSのマップ減速の速度に関するベンチマークを持っている人はいますか?

1億件のレコードがあり、Hadoopストリーミング(phpスクリプト)を使用して、マッピング、グループ化、および削減を行っているとします(いくつかの単純なphp計算を使用)。平均的なグループには、1〜6個のレコードが含まれます。

また、小さなインスタンスまたは大きなインスタンスの束を実行する方が良い/費用効果が高いですか?インスタンス内でノードに分割されていることはわかっていますが、ノードが大きいほどI / Oが高くなるため、サーバーごとのノードごとの速度が速くなります(コスト効率が高くなります)。

また、ストリーミングでは、マッパーとレデューサーの比率はどのように決定されますか?

4

1 に答える 1

1

意味のあるベンチマークを教えていただけるかどうかわかりませんが、それは、コンピュータ プログラムが一般的にどのくらいの速さで実行されるかを尋ねるようなものです。スクリプトについて何も知らずに、プログラムの実行速度を判断することはできません。

つまり、EMR ジョブを実行するインスタンスの速度は、AWS から指定した基盤となるインスタンスと同じ仕様です。

EMR のパフォーマンスがどのように異なるかについて非常に大まかに理解したい場合: CPU ボトルネックの前に I/O ボトルネックに遭遇する可能性が高いと思います。

理論的には、これは、多数の小さなインスタンスを実行し、ラックの多様性を求める必要があることを意味します。これは、競合させるのではなく、より多くのマシンからより多くの I/O リソースを取得できるようにするためです。実際には、I/O インスタンスの数を減らし、I/O インスタンスを増やすほど効果的であることがわかりました。しかし、この印象でさえ常に当てはまるとは限りません。実際には、ゾーンがどれだけ混雑しているか、およびジョブがどこでスケジュールされているかによって異なります。

于 2012-04-17T21:57:20.420 に答える