0

同じ hdfs の上に 3 ノードの Hadoop クラスター (1 つの Namenode、2 つのデータ ノード) と hbase をセットアップしました。各ノードは、私の Windows 8 マシン (Intel i5、4GB RAM、2.4Ghz) で実行されている 512 MB の Ubuntu 仮想ボックス イメージ
です 。 -cluster-setup.html

私は、約 500,000 レコード (縮小セット) の米国国勢調査データを分析するプログラムを作成しました。MAPタスクで(hdfsから)ファイルを読み取っているだけで、それを保存しているのは HBASE です。その後、フィルターに基づいてデータを取得します。

スタンドアロン (512 MB 仮想マシン) の hadoop-hbase でプログラムを実行すると、約 23 分かかります。しかし、クラスター (512*3 MB) で同じ jar を実行すると、40 分以上かかります。

クラスターの処理に時間がかかるのはなぜですか? それとも期待される結果ですか?

4

1 に答える 1

1

仮想マシンでクラスターを実行すると、特にメモリが不足し、ホストOSからのスワップを使用する必要がある場合にのみ、map-reduceの速度が低下します(virtual-osおよび複数のhadoopインスタンスの実行によるオーバーヘッドのため)。

仮想マシンはすべて1つの物理CPUを共有し、開発にのみ使用する必要があることに注意してください。

于 2013-02-21T19:19:58.443 に答える