sqoop を使用して MySQL から HBase にデータをインポートしようとしています。MySQL テーブルには約 900 万件のレコードがあり、サイズはほぼ 1.2GB です。Hadoop クラスターのレプリケーション ファクターは 3 です。
私が直面している問題は次のとおりです。
hbase にインポートした後のデータ サイズは 20 GB を超えています!!! 理想的には、たとえば 5GB (1.2G*3 + いくらかのオーバーヘッド) に近い値にする必要があります。
HBase テーブルの VERSIONS は 1 として定義されています。MySQL から同じテーブルを再度インポートすると、/hbase/ のファイル サイズが増加します (ほぼ 2 倍になります)。HBase テーブルの行数は変わりませんが。HBase に同じ行を挿入しているため、これは奇妙に思えます。そのため、ファイルサイズは行カウント値と同様に同じままである必要があります。
私の理解では、同じ行セットをインポートする場合、2 番目のケースのファイル サイズは増加しないはずです。これは、各エントリに対して維持される最大バージョンが 1 つだけであるためです。
どんな助けでも大歓迎です。