java - Mapper と Reducer の計算時間とネットワークパフォーマンスへの影響 Hadoop

Question

n 候補のリストから n*(n-1)/2 候補ペアを生成する必要があります。

これは、すべてのマッパーインスタンスまたはすべてのレデューサーインスタンスで実行できます。

しかし、この操作が縮小フェーズで実行された場合、マップフェーズで実行されたよりもはるかに高速であることに気付きました。理由は何ですか？

マッパーは重い計算をサポートできませんか?

Mapper インスタンスがネットワーク上でこのような計算を行うと、どのような影響がありますか?

ありがとう！

score 0 · Accepted Answer

簡単に言えば、マッパーを使用してデータを生成する場合、Hadoop はマッパーから redcuer にデータをコピーする必要があり、これには時間がかかりすぎます。

結果の合計データサイズ

生成された合計データはですO(n^2)。

mapper VS reducerによるデータ生成の比較

マッパーを使用してペアを生成する場合n*(n-1)/2、中間データをレデューサーにコピーする必要があります。Hadoop でのこのステップは、シャッフルフェーズと呼ばれます。レデューサーはこれらのデータを HDFS に配置する必要があります。シャッフルフェーズ中に原因でハードディスクから読み書きされるデータの合計6* sizeof(intermediate data)は、非常に大きくなる可能性があります。

一方、データがレデューサーによって生成された場合、O(n^2)中間のデータ変換は不要です。そのため、パフォーマンスが向上する可能性があります。

したがって、パフォーマンスの問題は主に計算ではなくデータ変換によって引き起こされます。また、ディスクアクセスがない場合、マッパーとリデューサーのパフォーマンスは同じです。

マッパーデータ生成戦略のパフォーマンスを改善する方法

それでもマッパーを使用してデータを生成したい場合はio.sort.factor、圧縮をオンにするとパフォーマンスが向上する可能性があります。

java - Mapper と Reducer の計算時間とネットワーク パフォーマンスへの影響 Hadoop

1 に答える 1

結果の合計データサイズ

mapper VS reducerによるデータ生成の比較

マッパーデータ生成戦略のパフォーマンスを改善する方法

Related

Reference

java - Mapper と Reducer の計算時間とネットワークパフォーマンスへの影響 Hadoop