Hadoopジョブカウンターで、「マップ出力マテリアライズドバイト」と「マップ出力バイト」の違いは何ですか?マップ出力圧縮を無効にすると前者が表示されないので、実際の出力バイト(圧縮)であり、後者は非圧縮バイトだと思いますか?
1 に答える
私はあなたが正しいと思います。http://hadoop.apache.org/docs/r1.0.4/releasenotes.htmlから:
MAPREDUCE-2365。FileInputFormat(BYTES_READ)およびFileOutputFormat(BYTES_WRITTEN)の新しいカウンター。圧縮されたMapOutputSizeの新しいカウンターMAP_OUTPUT_MATERIALIZED_BYTES。(シッダールスセス)
(Hadoop 0.20.2以降の変更)
.................................................。 .................................................。 ...............................................
TomWhiteの「HadoopDefinitiveGuide」、第3版(表8-2、261ページ)からの引用は次のとおりです。
「マップ出力マテリアライズドバイト」-実際にディスクに書き込まれたマップ出力のバイト数。マップ出力圧縮が有効になっている場合、これはカウンター値に反映されます。
「マップ出力バイト」-ジョブ内のすべてのマップによって生成された非圧縮出力のバイト数。collect()
マップでメソッドが呼び出されるたびにインクリメントされOutputCollector
ます。