4

ウィキペディアのダンプ(mysqlテーブル、解凍されたファイルは約50GBかかります)をHadoop(hbase)にインポートする必要があります。まず、ダンプをmysqlにロードしてから、データをmysqlからhadoopに転送します。ただし、データをmysqlにロードするには、約4〜7日という膨大な時間がかかります。mysqlダンプをhadoopに直接ロードすることは可能ですか(ダンプファイルパーサーなどを使用して)?

4

2 に答える 2

2

私が覚えている限り、MySQL ダンプはほぼ​​完全に一連の挿入ステートメントです。それらをマッパーで解析してそのまま処理できます...テーブルがほとんどない場合、Javaでのハードコード解析は簡単です。

于 2012-11-13T15:48:24.367 に答える
1

スクープを使用します。map reduce ジョブを使用して mysql データを HDFS にインポートするツール。

便利です。

于 2012-11-15T15:08:10.780 に答える