ubuntu - クラスタ化されたシステムとスタンドアロンシステムでの Hadoop 処理時間

Question

同じ hdfs の上に 3 ノードの Hadoop クラスター (1 つの Namenode、2 つのデータノード) と hbase をセットアップしました。各ノードは、私の Windows 8 マシン (Intel i5、4GB RAM、2.4Ghz) で実行されている 512 MB の Ubuntu 仮想ボックスイメージ
です。 -cluster-setup.html

私は、約 500,000 レコード (縮小セット) の米国国勢調査データを分析するプログラムを作成しました。MAPタスクで（hdfsから）ファイルを読み取っているだけで、それを保存しているのは HBASE です。その後、フィルターに基づいてデータを取得します。

スタンドアロン (512 MB 仮想マシン) の hadoop-hbase でプログラムを実行すると、約 23 分かかります。しかし、クラスター (512*3 MB) で同じ jar を実行すると、40 分以上かかります。

クラスターの処理に時間がかかるのはなぜですか? それとも期待される結果ですか？

score 1 · Accepted Answer

仮想マシンでクラスターを実行すると、特にメモリが不足し、ホストOSからのスワップを使用する必要がある場合にのみ、map-reduceの速度が低下します（virtual-osおよび複数のhadoopインスタンスの実行によるオーバーヘッドのため）。

仮想マシンはすべて1つの物理CPUを共有し、開発にのみ使用する必要があることに注意してください。

ubuntu - クラスタ化されたシステムとスタンドアロン システムでの Hadoop 処理時間

1 に答える 1

Related

Reference

ubuntu - クラスタ化されたシステムとスタンドアロンシステムでの Hadoop 処理時間