ウィキペディアのダンプ(mysqlテーブル、解凍されたファイルは約50GBかかります)をHadoop(hbase)にインポートする必要があります。まず、ダンプをmysqlにロードしてから、データをmysqlからhadoopに転送します。ただし、データをmysqlにロードするには、約4〜7日という膨大な時間がかかります。mysqlダンプをhadoopに直接ロードすることは可能ですか(ダンプファイルパーサーなどを使用して)?
質問する
4321 次