Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
レデューサーが http を介してマップ出力をプルすることを理解しています。しかし、各 map タスクはすべてのスピルを 1 つのファイルにマージするため、reduce タスクはこれらの中間データを map タスクから取得するにはどうすればよいでしょうか? そのファイルの一部?
マップ タスクの出力は、パーティション番号で並べ替えられます。各パーティション番号は、1 つのレデューサーに対応します。レデューサーが出力をプルすると、ファイル ポインターはレデューサーのパーティション番号の開始位置にオフセットされ、読み取りが開始されます。もちろん、これを実現するために、ファイル オフセット テーブルへのパーティション番号がマッパー側で維持されます。