Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
私はたくさん検索しましたが、すべてのマップ タスクで、バッファの内容がしきい値に達すると、スレッドが削減数に従ってデータを分割することを知っていました。削減数の役割は何ですか? マップでパーティショニングが発生するのはなぜですか?マップ フェーズにどのように役立つのですか?ソート後、スレッドはコンテンツをディスクにスピルします。それはどのように起こりますか?ここにこぼれることの意味を理解できません..... ありがとう。
レデューサーがレデューサーに関連する各マッパーからすべてのデータをポーリングしてプルするときに、マップはデータを分割する必要があります。
逆に想像すると、レデューサーは各マップからすべての出力をプルし、各マッパーから各レデューサーにすべてのデータ出力を送信することになり、非常に非効率的です。
そのため、マッパーでパーティショニングすることにより、リデューサーは各マッパーから削減する必要があるデータをクエリしてプルバックすることができます。