Hadoop のジョブ完了履歴で、いくつかの FileSystemCounters と混同されています。
FILE_BYTES_READ と HDFS_BYTES_READ の違いは何ですか。
HDFS_BYTES_READ の値が Map 入力バイトと異なるのはなぜですか?
Spilled Records と Reduce output records の違いは何ですか?
Hadoop のジョブ完了履歴で、いくつかの FileSystemCounters と混同されています。
FILE_BYTES_READ と HDFS_BYTES_READ の違いは何ですか。
HDFS_BYTES_READ の値が Map 入力バイトと異なるのはなぜですか?
Spilled Records と Reduce output records の違いは何ですか?
以下に説明があります a) FILE_BYTES_READ - Mapper への入力がローカル ファイルからのものである場合に計算されます。通常は 0 ですが、mapper がファイルを中間出力として出力する場合、たまたまファイルを統合するマージ ソートがあります。マッパーの FILE_BYTES_READ がそれです。
b) HDFS_BYTES_READ - マッパーの場合、分割に関するメタデータを含む HDFS からのマップ入力バイトです。レデューサーの場合、通常は 0 です。
c) Map Input bytes - マッパーが読み取った入力バイトの正確な数。通常、入力バイトは HDFS_BYTES_READ よりわずかに少なくなります。
d) こぼれたレコード - マッパーとリデューサーの場合、ジョブの実行中にディスクにこぼれたレコードの数
e) Reduce Output records - レデューサーから出力された最終的なレコード数。