java - Hadoop MapReduce は、HDFS とは異なる入力ファイルを処理します

翻译自：https://stackoverflow.com/questions/19522631 2013-10-22T15:51:16.917

666 次

-4

Java MapReduce プログラムを作成しています。たとえば、HDFS に 2 つのファイルがあります。私のプログラムは、HDFS からこれら 2 つのファイルを読み取り、両方のファイルで同じ行を見つけて、結果を出力します。例えば：

a.log:
  apple
  computer
  bird
b.log:
  steve
  pear
  apple

最終的な出力は

apple

これどうやってするの？最初に a.log を読み取ってハッシュセットに保存しようとしていますが、タスクトラッカーが互いにメモリを共有できないため、機能しません。誰でもアイデアを得ることができますか？または Hadoop MapReduce にはこの種の OOTB がありませんか?

1 に答える 1