おそらく非常に不完全な質問です。私は2つのドキュメントを持っており、マップで両方のドキュメントのオーバーラップを見つけて、オーバーラップを比較したいと思います(それを行うための何らかの手段があるとしましょう)
だからこれは私が考えていることです:
1) Run the normal wordcount job on one document (https://sites.google.com/site/hadoopandhive/home/hadoop-how-to-count-number-of-times-a-word-appeared-in-a-file-using-map-reduce-framework)
2) But rather than saving a file, save everything in a HashMap(word,true)
3) Pass that HashMap along the second wordcount mapreduce program and then as I am processing the second document, check the words against the HashMap to find whether the word is present or not.
だから、このようなもの
1) HashMap<String, boolean> hm = runStepOne(); <-- map reduce job
2) runSteptwo(HashMap<String, boolean>)
これをHadoopで行うにはどうすればよいですか