実際にHiveを使用してHadoopジョブを実行していますが、これuniq
は多くのテキストファイルの行に想定されています。reduce ステップでは、各キーの最新のタイムスタンプ付きレコードを選択します。
Hadoop は、map ステップによって出力された同じキーを持つすべてのレコードが、クラスター全体で多くのレデューサーが実行されている場合でも、単一のレデューサーに送られることを保証しますか?
同じキーを持つ一連のレコードの途中でシャッフルが発生した後、マッパーの出力が分割されるのではないかと心配しています。