hadoop - Hadoop マッパー圧縮出力が機能しませんか?

Question

私は Hadoop cdh4.1.2 を使用しており、私のマッパープログラムはほとんど入力データのエコーです。しかし、私のジョブステータスページで、私は見ました

FILE: Number of bytes written  3,040,552,298,327

ほぼ等しい

FILE: Number of bytes read 3,363,917,397,416

マッパーの場合、私はすでに設定していますが

conf.set("mapred.compress.map.output", "true");

私の仕事では圧縮アルゴリズムが機能しないようです。どうしてこれなの？

score 1 · Accepted Answer

あなたの仕事には減速機がありますか？

もしそうなら、「Reduce shuffle bytes」をチェックしてください。それが「Map output bytes」よりもかなり少ない(1/5 程度)場合は、マップ出力が圧縮されていると見なすことができます。出力された実際のデータサイズであり、圧縮されたサイズではありません。

それでも機能するかどうか疑問がある場合は、圧縮ありとなしでジョブを送信し、「シャッフルバイトを減らす」を比較します。マップ出力の圧縮に関する限り、「シャッフルバイトを減らす」だけが重要です。

1 に答える 1