mysqlからHDFSにデータをインポートする方法。sqoopはclouderaではなくHDFSインストールであるため、使用できません。以下のリンクを使用してHDFSをセットアップしました。私のHadoopバージョンは0.20.2です http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-multi-node-cluster/
2 に答える
質問とは直接関係ありませんが、データベースを Map Reduce ジョブへの入力として使用し、HDFS にコピーしたくない場合は、DBInputFormat を使用してデータベースから直接入力できます。
sqoopとは別に、 hiho を試すことができます。私はそれについて良いことを聞いたことがあります。(使ったことないけど)
しかし、私が見たほとんどの場合、人々はこれを行うために独自のフローを作成することになります。hiho がうまくいかない場合は、 mysqlimport を使用して MySql からデータをダンプできます。次に、map-reduce ジョブまたは Pig/Hive を使用して HDFS に読み込みます。
Sqoop は非常に優れており、広く使用されていると聞きました (これも伝聞です。私自身は使用したことがありません)。Apache インキュベーター プロジェクトになった今、Hadoop の Apache リリースのサポートを開始したか、少なくとも Cloudera 以外のバージョンの負担を軽減した可能性があると思います。ドキュメントには、Apache hadoop v0.21 をサポートしていると書かれています。Hadoop バージョンで動作するようにしてください。それほど難しいことではないかもしれません。