hadoop - Hadoop のジョブ完了履歴に関する FileSystemCounters と混同される

Question

Hadoop のジョブ完了履歴で、いくつかの FileSystemCounters と混同されています。

FILE_BYTES_READ と HDFS_BYTES_READ の違いは何ですか。
HDFS_BYTES_READ の値が Map 入力バイトと異なるのはなぜですか?
Spilled Records と Reduce output records の違いは何ですか?

score 0 · Accepted Answer

以下に説明があります a) FILE_BYTES_READ - Mapper への入力がローカルファイルからのものである場合に計算されます。通常は 0 ですが、mapper がファイルを中間出力として出力する場合、たまたまファイルを統合するマージソートがあります。マッパーの FILE_BYTES_READ がそれです。

b) HDFS_BYTES_READ - マッパーの場合、分割に関するメタデータを含む HDFS からのマップ入力バイトです。レデューサーの場合、通常は 0 です。

c) Map Input bytes - マッパーが読み取った入力バイトの正確な数。通常、入力バイトは HDFS_BYTES_READ よりわずかに少なくなります。

d) こぼれたレコード - マッパーとリデューサーの場合、ジョブの実行中にディスクにこぼれたレコードの数

e) Reduce Output records - レデューサーから出力された最終的なレコード数。

hadoop - Hadoop のジョブ完了履歴に関する FileSystemCounters と混同される

1 に答える 1

Related

Reference