0

Hadoop のジョブ完了履歴で、いくつかの FileSystemCounters と混同されています。

  1. FILE_BYTES_READ と HDFS_BYTES_READ の違いは何ですか。

  2. HDFS_BYTES_READ の値が Map 入力バイトと異なるのはなぜですか?

  3. Spilled Records と Reduce output records の違いは何ですか?

4

1 に答える 1

0

以下に説明があります a) FILE_BYTES_READ - Mapper への入力がローカル ファイルからのものである場合に計算されます。通常は 0 ですが、mapper がファイルを中間出力として出力する場合、たまたまファイルを統合するマージ ソートがあります。マッパーの FILE_BYTES_READ がそれです。

b) HDFS_BYTES_READ - マッパーの場合、分割に関するメタデータを含む HDFS からのマップ入力バイトです。レデューサーの場合、通常は 0 です。

c) Map Input bytes - マッパーが読み取った入力バイトの正確な数。通常、入力バイトは HDFS_BYTES_READ よりわずかに少なくなります。

d) こぼれたレコード - マッパーとリデューサーの場合、ジョブの実行中にディスクにこぼれたレコードの数

e) Reduce Output records - レデューサーから出力された最終的なレコード数。

于 2013-06-24T10:40:56.143 に答える