ウィキペディアのダンプ(mysqlテーブル、解凍されたファイルは約50GBかかります)をHadoop(hbase)にインポートする必要があります。まず、ダンプをmysqlにロードしてから、データをmysqlからhadoopに転送します。ただし、データをmysqlにロードするには、約4〜7日という膨大な時間がかかります。mysqlダンプをhadoopに直接ロードすることは可能ですか(ダンプファイルパーサーなどを使用して)?
4321 次
私が覚えている限り、MySQL ダンプはほぼ完全に一連の挿入ステートメントです。それらをマッパーで解析してそのまま処理できます...テーブルがほとんどない場合、Javaでのハードコード解析は簡単です。
スクープを使用します。map reduce ジョブを使用して mysql データを HDFS にインポートするツール。
便利です。