私はHBaseの初心者です。現在、HBaseのパフォーマンスに何が影響するのかわかりません。まず、Hbaseをスタンドアロンモードで実行しました。1台のマシンを使用してMapreduceプログラムを実行し、200万行のテキスト行を処理し、その結果をローカルファイルシステムに保存されているHBaseテーブルに出力しました。約1時間40分かかりました。次に、疑似分散モードに変更しました。その後、HtableファイルはHDFSに保存されます。プログラムを含む他のすべてのものは同じままです。それから3時間以上かかりました!! 私は完全に混乱しています。なぜこれが起こったのか誰か教えてもらえますか?
もう1つの質問ですが、あまり強力ではないLinuxマシン(8GRAM。3GHz4コアCPU)で仮想クラスターとして5台の仮想マシンを作成しているためです。1か月前にMapreduceプログラムを実行したとき、単一のマスターまたは5つ以上のスレーブで実行したときに大きな違いは見られませんでした。そのため、CPUがボトルネックになっている可能性があると思いましたが、それでもわかりません。私はオペレーティングシステムにあまり詳しくないので、誰かが確実に答えることができますか?IOのボトルネックなのかCPUのボトルネックなのかわかりません。そして、完全分散モードでHBaseテーブルにレコードを挿入するために、6台のマシンクラスターでプログラムを実行するだけです。遅すぎたので仕事をやめました。