Apache Hbase インスタンスにアップロードしたい大規模なマトリックスを表す CSV ファイルがあります (AWS EMR で実行されていますが、それは問題ではありません)。CSV には ~15000 列と ~50000 行が含まれています。マトリックスのセル値は整数です。
CSV は次のようになります。
ROW_KEY col1 col2 col3 .... col15000
row1 0 1 125 456
row2 23 23 45 ...
row3 ... ... ...
...
row50000
各列 (col1、col2 など) を列修飾子として、HBase スキーマを単一の列ファミリーに保持することを計画しています。
Python スクリプトで CSV を反復処理し、 happybaseなどを使用して各行をアップロードすることを検討しましたが、かなり時間がかかるようです。
ImportTSVツールを調べましたが、このツールでは、次のように、すべての列名の詳細を示す引数が必要なようです。
Dimporttsv.columns=HBASE_ROW_KEY,cf1:name,cf2:exp
引数に何万もの列を詳述することは、良い解決策とは思えません。