0

私の論文の一部として、HadoopやStormなどのビッグデータフレームワークを評価およびテストする必要があります。パフォーマンスとスケーラビリティに関する関連情報を取得するために、どのような最小限のセットアップをお勧めしますか?これに最適なクラウドプラットフォームはどれですか?すぐに使用できるPaaSで複数のフレームワークを評価しているので、ソリューションは最良の選択ではありません。右?関連情報を取得するためのノード/サーバーの最小数はいくつですか?私がそれをやっている会社はおそらく私に20台のマシンクラスターを与えないので、安いほど良いです;)

どうもありがとう、kroax

4

1 に答える 1

0

ええと、あなたは間違いなく少なくとも2台の物理マシンが必要になるでしょう。1台の物理マシンに複数のVMを配置するようなことは問題外です。そうすると、分散システムに典型的なネットワークオーバーヘッドが発生しなくなります。

3つは、現実的なシナリオとして回避できる絶対的な最小値です。そして、それでも、多くの場合、Hadoopのオーバーヘッドは利益によってかろうじて上回っています。

5が最も現実的な最小値であり、かなり典型的な小さなクラスターサイズだと思います。5〜8は、適切な狭い範囲です。

プラットフォームに関する限り、Amazon EC2/EMRは常に検討すべき最初の選択肢として適していると思います。これは確立された優れたサービスであり、多くの実際のクラスターが実行されています。利点は、使いやすく、比較的安価で、実際のシナリオを代表することです。唯一の欠点は、仮想化によって個々の物理マシンとはわずかに異なるスケーリングが発生する可能性があることですが、それが問題になる場合とそうでない場合があります。より大きなインスタンスタイプを使用する場合、それらは仮想化されていないと思います。

お役に立てれば。

于 2012-10-01T17:05:32.583 に答える