~20 ノードの Hadoop クラスターを実行するためのEC2/ EMRを評価しています。(カスタム JARクラスター)。単一ノード 3.3 GHz 2GB RAM のローカル VMWare インスタンスで単純な WordCount の例を実行しましたが、完了までに 10 秒もかかりませんでした。WordCount の例は、EMR で 2 つのc1.mediummインスタンスを使用して完了するのに 3 分かかります (3 ~ 5 分の起動時間を除く)。2 つの m1.small インスタンスで同じ時間がかかります。EMR でジョブを実行するためのオーバーヘッドが発生し、この問題のサイズが小さすぎる可能性があるため、これは理解できるようです。
クラウドのパフォーマンス上の利点は、問題のサイズがどのくらいのときにわかり始めますか? または、およそいくつのノードまたは計算ユニットでしょうか?