hadoop - Hadoop で同一のキーが Mapper に渡されるとどうなるか

Question

Hadoop Map Reduce フレームワークでもキーと値のペアとしてデータがマッパーに渡されることの重要性は何ですか。キーと値のペアは、マッパーからのデータのパーティション分割に対応するため、リデューサーに渡されるときに重要であることを理解しています。同じキーに属する値は、リストとしてマッパーからリデューサーステージに移動します。しかし、マッパーステージ自体の前にキーはどのように使用されるのでしょうか? 同じキーに属する値はどうなりますか? カスタム入力フォーマットを定義しない場合、Hadoop は入力ファイルからレコード番号をキーとして、テキスト行をマッパー関数の値として受け取ると思います。しかし、カスタム入力フォーマットを実装することにした場合、キーのカスタム選択があり、同じキーに対応する値を持つ可能性があります。

マッパーステージでフェノメナはどのように処理されますか? マッパーは重複するレコードを無視して別のレコードとして扱いますか、それともキーごとに 1 つのレコードのみを選択しますか?

score 5 · Accepted Answer

入力分割は、単一のマップによって処理される入力のチャンクです。各マップは単一の分割を処理します。各分割はレコードに分割され、マップは各レコード (キーと値のペア) を順番に処理します。

そのため、マッパーは同じキーを持つレコードを別のレコードとして扱います。

hadoop - Hadoop で同一のキーが Mapper に渡されるとどうなるか

1 に答える 1

Related

Reference