hadoop - Hadoopでのマップ側の結合は、アドバンテージデータの局所性を失いますか？

Question

私の質問は、Hadoopでのマップ側の参加に関連しています。先日ProHadoopを読んでいたのですが、次の文章がわかりませんでした

「マップ側の結合は、複数の並べ替えられたデータセットに対して操作を実行するためのフレームワークを提供します。結合内の個々のマップタスクは、データの局所性の利点の多くを失いますが、削減フェーズの排除の可能性により、全体的なジョブが増加します。 /または削減に必要なデータ量の大幅な削減。」

並べ替えられたデータセットがHDFSに保存されている場合、データの局所性の利点をどのように失うことができますか？Hadoopのジョブトラッカーは、データセットブロックがローカライズされている場所で同じ場所でタスクトラッカーを実行しませんか？

私の理解を正してください。

score 1 · Accepted Answer

ステートメントは正しいです。データの局所性がすべて失われるわけではなく、その一部が失われます。
仕組みを見てみましょう: 通常、結合の小さい部分と大きい部分を区別します。結合の小さなパーティションは、対応する大きなパーティションが格納される場所に分散されます。
その結果、結合されたデータセットの 1 つのデータの局所性が失われます。

score 0 · Accepted Answer

David が何を意味するのかはわかりませんが、私にとってこれは、マップフェーズしかないためです。そこに行って、さまざまなテーブルをまとめて仕事を終えるだけで、HDFS について何のメリットもありません。

hadoop - Hadoopでのマップ側の結合は、アドバンテージデータの局所性を失いますか？

3 に答える 3

Related

Reference