Java MapReduce プログラムを作成しています。たとえば、HDFS に 2 つのファイルがあります。私のプログラムは、HDFS からこれら 2 つのファイルを読み取り、両方のファイルで同じ行を見つけて、結果を出力します。例えば:
a.log:
apple
computer
bird
b.log:
steve
pear
apple
最終的な出力は
apple
これどうやってするの?最初に a.log を読み取ってハッシュ セットに保存しようとしていますが、タスクトラッカーが互いにメモリを共有できないため、機能しません。誰でもアイデアを得ることができますか?または Hadoop MapReduce にはこの種の OOTB がありませんか?