0

それぞれ異なるデータを含む2つの異なるファイルがあります。これらのファイルでいくつかの処理を行い、一致するキーに基づいてデータをマージしたいと思います。これをHadoopに実装するための最良の方法は何ですか?どういうわけか、それぞれが1つのファイルを処理し、次にレデューサーを処理してデータを結合する2つのマッパーを作成することを考えていましたか?これが可能かどうかはわかりません。Hadoopで2つのファイルのデータを組み合わせる方法について誰か提案がありますか?

4

2 に答える 2

1

map / reduceジョブ(Hive、Pig、Cascading、Javaなど)を作成する方法はたくさんありますが、基本的に結合は、マッパーがkey_to_join_byおよびrest_of_data形式でレコードを出力し、レデューサーが実際の結合を行う多入力ジョブです(ファイルの1つが、マッパーで結合を実行できるメモリに保持するのに十分小さい場合を除きます)

Pigでこれを行う方法の例をここで見ることができます

于 2013-03-06T16:35:28.950 に答える
0

ファイルの例を挙げていただけますか?あなたが何を求めているのかは明確ではありません。Hadoopで結合を行うことについて話しているのですか?その場合、2つのマッパークラスが必要になります。または、結合の実行を容易にするHiveを使用できます。考えられる両方の解決策の例については、これをご覧ください。Hadoopでの結合

于 2013-03-06T14:30:46.170 に答える