現在、私は EDW (エンタープライズ データ ウェアハウス) から約 10 個のテーブルを Hadoop に取り込んでいます。これらのテーブルは、スター スキーマ モデルに密接に関連しています。私は Sqoop を使用してこれらすべてのテーブルを移動し、csv ファイルを含む 10 個のディレクトリを作成しました。
MR の仕事を開始する前に、これらのファイルを保存するためのより良い方法を検討しています。MR ジョブに取り組む前に、何らかのモデルに従うか、集計を作成する必要がありますか? 私は基本的に、関連するデータを一緒に保存する方法を検討しています。
検索して見つけたほとんどのものは、簡単なcsvファイルを保存し、opencsvでそれらを読み取ることです。csvファイルだけでなく、もう少し複雑なものを探しています。別の形式に移行する方が csv よりもうまく機能する場合、それは問題ありません。
まとめると、MR を快適に使用するために、一連の関連データを HDFS に保存する最善の方法です。