私は完全なHadoopn00bです。私は最初のHadoopプロジェクトとして、次のことを解決しようとしています。アマゾンS3バケットに100万以上のサブフォルダーがあります。これらの各フォルダには2つのファイルがあります。ファイル1には次のようなデータがあります。
date,purchaseItem,purchaseAmount
01/01/2012,Car,12000
01/02/2012,Coffee,4
....................
File2には、次の形式で顧客の情報があります。
ClientId:Id1
ClientName:"SomeName"
ClientAge:"SomeAge"
この同じパターンが、バケット内のすべてのフォルダーで繰り返されます。
このすべてのデータをHDFSに書き込む前に、次のようにFile1とFile2を結合します。
参加ファイル:
ClientId,ClientName,ClientAge,date,purchaseItem,purchaseAmount
Id1,"SomeName","SomeAge",01/01/2012,Car,12000
Id1,"SomeName","SomeAge",01/02/2012,Coffee,4
フォルダーごとにこれを実行してから、この結合されたデータセットをHDFSにフィードする必要があります。Hadoopでこのようなことをどのように達成できるかを誰かが指摘できますか?正しい方向へのプッシュは大歓迎です。