同じ hdfs の上に 3 ノードの Hadoop クラスター (1 つの Namenode、2 つのデータ ノード) と hbase をセットアップしました。各ノードは、私の Windows 8 マシン (Intel i5、4GB RAM、2.4Ghz) で実行されている 512 MB の Ubuntu 仮想ボックス イメージ
です
。 -cluster-setup.html
私は、約 500,000 レコード (縮小セット) の米国国勢調査データを分析するプログラムを作成しました。MAPタスクで(hdfsから)ファイルを読み取っているだけで、それを保存しているのは HBASE です。その後、フィルターに基づいてデータを取得します。
スタンドアロン (512 MB 仮想マシン) の hadoop-hbase でプログラムを実行すると、約 23 分かかります。しかし、クラスター (512*3 MB) で同じ jar を実行すると、40 分以上かかります。
クラスターの処理に時間がかかるのはなぜですか? それとも期待される結果ですか?