次の問題を実装する必要があります: タイプのデータを取得しています
public class Data{
private String key;
private String valueData;
}
それぞれに 1 つの (ランダムな) valueData を使用して、すべての一意のキーを取得するマップ削減ジョブを作成する必要があります。Hadoop の場合は非常に単純に聞こえますが、そうです、これを実装する方法を知っています。
しかし、本当の問題は、「同様の」キーをすべて削減する必要があることです。出力は、 dataValueの 1 つと同様のキーの 1 つでなければなりません。
Hadoop でこれを実装する最良の方法 (および方法) は何ですか? また、類似度アルゴリズムを柔軟に変更できるようにしたいと考えています。