0

Apache Hbase インスタンスにアップロードしたい大規模なマトリックスを表す CSV ファイルがあります (AWS EMR で実行されていますが、それは問題ではありません)。CSV には ~15000 列と ~50000 行が含まれています。マトリックスのセル値は整数です。

CSV は次のようになります。

ROW_KEY col1 col2 col3 .... col15000
row1 0    1  125  456
row2 23   23  45  ...
row3 ...  ...  ...
...
row50000

各列 (col1、col2 など) を列修飾子として、HBase スキーマを単一の列ファミリーに保持することを計画しています。

Python スクリプトで CSV を反復処理し、 happybaseなどを使用して各行をアップロードすることを検討しましたが、かなり時間がかかるようです。

ImportTSVツールを調べましたが、このツールでは、次のように、すべての列名の詳細を示す引数が必要なようです。

Dimporttsv.columns=HBASE_ROW_KEY,cf1:name,cf2:exp

引数に何万もの列を詳述することは、良い解決策とは思えません。

4

0 に答える 0