0

HBase データベースの既存のインスタンスに対して実行する必要がある HBase sql ステートメントの大きなリストがあります。

SQL ステートメントはプレーン テキストであり、データベースは (HDFS ではなく) ネイティブ ファイル システムで実行されています。したがって、Hadoop インスタンスを実行していません。

現在、これらの SQL ステートメントを hbase シェルで実行していますが、プロセスが非常に遅いです。Hadoop が実行されているかどうかはわかっています。マッパーを割り当てて並列挿入を実行できますが、Hadoop インスタンスを使用せずに一括読み込みを行うより高速な方法はありますか?

4

2 に答える 2

1

Hadoop(より具体的にはMR)は、バルクデータ(ビッグデータ)の処理を高速化するように設計されているため、要件に適しています。

HDFSでStoreFilesを作成してから、CompleteBulkLoadメソッドを使用して、StoreFileからテーブルにデータをロードします。

Hadoopインスタンスを使用しない特定の理由はありますか?

于 2013-03-21T05:42:05.517 に答える
0

HBase は、一括アップロード用の ImportTSV API を提供します

ImportTSv API の例を次に示します。

http://souravgulati.webs.com/apps/forums/topics/show/8617965-hbase-bulk-upload-using-importtsv-in-hbase-table

ここでは hdfs からデータをアップロードしてみました。ローカル ファイル システムから ImportTSV を使用してデータのアップロードを試すことができます。うまくいかない場合は、HDFS の上で Hbase を実行します。

于 2013-03-21T05:48:05.693 に答える