私の質問は、Hadoopでのマップ側の参加に関連しています。先日ProHadoopを読んでいたのですが、次の文章がわかりませんでした
「マップ側の結合は、複数の並べ替えられたデータセットに対して操作を実行するためのフレームワークを提供します。結合内の個々のマップタスクは、データの局所性の利点の多くを失いますが、削減フェーズの排除の可能性により、全体的なジョブが増加します。 /または削減に必要なデータ量の大幅な削減。」
並べ替えられたデータセットがHDFSに保存されている場合、データの局所性の利点をどのように失うことができますか?Hadoopのジョブトラッカーは、データセットブロックがローカライズされている場所で同じ場所でタスクトラッカーを実行しませんか?
私の理解を正してください。