以下のような2つのファイルがあります。
ファイル A の場合
AA
BB
CC
DD
EE
FF
ファイル B の場合
BB
CC
DD
UU
VV
私の仕事は、ファイル B には現れるが、ファイル A には現れない単語を見つけることです。
以下は私がやっていることです。
マップ フェーズの場合:
emit(word,filename)
リデュース フェーズの場合:
単語を確認し、
if COUNT(values)>1:
ignore it.
if COUNT(values)==1 and filename != A:
ignore it.
emit(word)
より良い解決策はありますか?
アップデート
1 つのファイルに重複するエントリはありません。
よろしくお願いします、