1

私の質問は、Hadoopでのマップ側の参加に関連しています。先日ProHadoopを読んでいたのですが、次の文章がわかりませんでした

「マップ側の結合は、複数の並べ替えられたデータセットに対して操作を実行するためのフレームワークを提供します。結合内の個々のマップタスクは、データの局所性の利点の多くを失いますが、削減フェーズの排除の可能性により、全体的なジョブが増加します。 /または削減に必要なデータ量の大幅な削減。」

並べ替えられたデータセットがHDFSに保存されている場合、データの局所性の利点をどのように失うことができますか?Hadoopのジョブトラッカーは、データセットブロックがローカライズされている場所で同じ場所でタスクトラッカーを実行しませんか?

私の理解を正してください。

4

3 に答える 3

1

ステートメントは正しいです。データの局所性がすべて失われるわけではなく、その一部が失われます。
仕組みを見てみましょう: 通常、結合の小さい部分と大きい部分を区別します。結合の小さなパーティションは、対応する大き​​なパーティションが格納される場所に分散されます。
その結果、結合されたデータセットの 1 つのデータの局所性が失われます。

于 2012-05-31T10:09:16.540 に答える
0

David が何を意味するのかはわかりませんが、私にとってこれは、マップ フェーズしかないためです。そこに行って、さまざまなテーブルをまとめて仕事を終えるだけで、HDFS について何のメリットもありません。

于 2012-06-02T04:14:38.967 に答える