4

私はHadoopを初めて使用し、pigスクリプトからのコマンドラインメッセージに興味がありました。

Total records written : 7676
Total bytes written : 341396
Spillable Memory Manager spill count : 103
Total bags proactively spilled: 39
Total records proactively spilled: 32389322

最終結果は「成功!」であることが示されます。まだわかりません。上記の数字はどういう意味ですか?

ありがとう。

4

1 に答える 1

5

最初の 2 つは、MR ジョブによって HDFS に書き込まれたレコード/バイトの合計を示しています。
MR ジョブ中に、すべてのレコードがメモリに収まらない場合があります。スピル カウンターは、メモリ不足を回避するためにデータノードのローカル ディスクに書き込まれたレコードの数を示します。

Pig は 2 つの方法を使用してメモリ使用量を制御し、必要に応じてスピルを行います。

1. こぼれやすいメモリ マネージャー:

これは、こぼれやすいバッグが登録されている中心的な場所のようなものです。メモリが不足している場合、このマネージャは登録されたバッグのリストを調べて、GC.


2.積極的な(自己)こぼれ:

メモリ制限に達した場合、バッグ自体がこぼれることもあります (「 」を参照pig.cachedbag.memusage) 。


あなたが持っている統計に戻ります:

  • 事前にこぼれたバッグの総数: こぼれたバッグの数
  • プロアクティブにこぼれたレコードの合計: それらのバッグ内のレコードの数

ジョブのスピル統計を確認することは常に良いことです。大量のスピルは、回避する必要がある大きなパフォーマンス ヒットを示している可能性があるためです。

于 2012-09-16T15:09:56.770 に答える