誰かがこれを経験したことがあれば、私は球場を探しています...
AWSのマップ減速の速度に関するベンチマークを持っている人はいますか?
1億件のレコードがあり、Hadoopストリーミング(phpスクリプト)を使用して、マッピング、グループ化、および削減を行っているとします(いくつかの単純なphp計算を使用)。平均的なグループには、1〜6個のレコードが含まれます。
また、小さなインスタンスまたは大きなインスタンスの束を実行する方が良い/費用効果が高いですか?インスタンス内でノードに分割されていることはわかっていますが、ノードが大きいほどI / Oが高くなるため、サーバーごとのノードごとの速度が速くなります(コスト効率が高くなります)。
また、ストリーミングでは、マッパーとレデューサーの比率はどのように決定されますか?