私がやろうとしていることを説明するために、単語数の例を少し変えて説明します。
私は 3 つのマッパーを持っており、それぞれが 3 つの大きな入力ファイルで完全な単語カウント結果を生成しています。出力は次のようになります。
Mapper 1 Result:
-------
cat 100
dog 50
fox 10
Mapper 2 Result:
-------
fox 200
pig 5
rat 1
Mapper 3 Result:
-------
dog 70
rat 50
fox 10
各結果は、指定されたファイルの一意のキー、カウント結果を持つ完全な単語数であることに注意してください。
レデューサー側では、私のアルゴリズムではレデューサーが 1 つだけである必要があります。ここで説明するには少し長すぎる理由から、各マッパーからの結果をカウントの降順でレデューサーにフィードする必要がありますが、何も実行しません。シャッフルとソートのステップ。つまり、キーによるグループ化を行わずに、各マッパーから次の順序でリデューサーが結果を受け取るようにします。
cat 100
dog 50
fox 10
fox 200
pig 5
rat 1
dog 70
rat 50
fox 10
つまり、値(キーではない)の降順で各マッパーの結果をレデューサーにロードするだけです