mysql - 大きなmysqlダンプをhadoopにインポートする方法は？

Question

ウィキペディアのダンプ（mysqlテーブル、解凍されたファイルは約50GBかかります）をHadoop（hbase）にインポートする必要があります。まず、ダンプをmysqlにロードしてから、データをmysqlからhadoopに転送します。ただし、データをmysqlにロードするには、約4〜7日という膨大な時間がかかります。mysqlダンプをhadoopに直接ロードすることは可能ですか（ダンプファイルパーサーなどを使用して）？

score 2 · Accepted Answer

私が覚えている限り、MySQL ダンプはほぼ完全に一連の挿入ステートメントです。それらをマッパーで解析してそのまま処理できます...テーブルがほとんどない場合、Javaでのハードコード解析は簡単です。

score 1 · Accepted Answer

スクープを使用します。map reduce ジョブを使用して mysql データを HDFS にインポートするツール。

便利です。

mysql - 大きなmysqlダンプをhadoopにインポートする方法は？

2 に答える 2

Related

Reference