java - ネイティブ FS 使用時の HBase バルクロード

Question

HBase データベースの既存のインスタンスに対して実行する必要がある HBase sql ステートメントの大きなリストがあります。

SQL ステートメントはプレーンテキストであり、データベースは (HDFS ではなく) ネイティブファイルシステムで実行されています。したがって、Hadoop インスタンスを実行していません。

現在、これらの SQL ステートメントを hbase シェルで実行していますが、プロセスが非常に遅いです。Hadoop が実行されているかどうかはわかっています。マッパーを割り当てて並列挿入を実行できますが、Hadoop インスタンスを使用せずに一括読み込みを行うより高速な方法はありますか?

score 1 · Accepted Answer

Hadoop（より具体的にはMR）は、バルクデータ（ビッグデータ）の処理を高速化するように設計されているため、要件に適しています。

HDFSでStoreFilesを作成してから、CompleteBulkLoadメソッドを使用して、StoreFileからテーブルにデータをロードします。

Hadoopインスタンスを使用しない特定の理由はありますか？

score 0 · Accepted Answer

HBase は、一括アップロード用の ImportTSV API を提供します

ImportTSv API の例を次に示します。

ここでは hdfs からデータをアップロードしてみました。ローカルファイルシステムから ImportTSV を使用してデータのアップロードを試すことができます。うまくいかない場合は、HDFS の上で Hbase を実行します。

java - ネイティブ FS 使用時の HBase バルク ロード