0

私は Hadoop cdh4.1.2 を使用しており、私のマッパー プログラムはほとんど入力データのエコーです。しかし、私のジョブステータスページで、私は見ました

FILE: Number of bytes written  3,040,552,298,327

ほぼ等しい

FILE: Number of bytes read 3,363,917,397,416

マッパーの場合、私はすでに設定していますが

conf.set("mapred.compress.map.output", "true");

私の仕事では圧縮アルゴリズムが機能しないようです。どうしてこれなの?

4

1 に答える 1

1

あなたの仕事には減速機がありますか?

もしそうなら、「Reduce shuffle bytes」をチェックしてください。それが「Map output bytes」よりもかなり少ない(1/5 程度)場合は、マップ出力が圧縮されていると見なすことができます。出力された実際のデータ サイズであり、圧縮されたサイズではありません。

それでも機能するかどうか疑問がある場合は、圧縮ありとなしでジョブを送信し、「シャッフル バイトを減らす」を比較します。マップ出力の圧縮に関する限り、「シャッフル バイトを減らす」だけが重要です。

于 2013-09-16T06:47:47.467 に答える