1

多数の小さなファイルをロードする Pig ジョブを実行すると、このステップで非常に長い間一時停止します。

2013-07-15 16:44:00,464 [JobControl] INFO  org.apache.hadoop.mapreduce.lib.input.FileInputFormat - Total input paths to process : 4277
2013-07-15 16:44:00,465 [JobControl] INFO  org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths to process : 4277
2013-07-15 16:48:51,314 [JobControl] INFO  org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths (combined) to process : 37

その間、ジョブ トラッカーに map reduce ジョブが表示されないので、Pig が HDFS コマンドを発行してファイルを事前に結合していると思います (多分?)。時々、説明のつかない理由で仕事が永遠に止まっているように見えることがあります。

この結合プロセスの進行状況を監視する方法はありますか (現在の処理の詳細を参照してください)。

ありがとう

4

1 に答える 1

1

Hadoop Archiveを見たことがありますか? これにより、複数の小さなファイルの取得にかかる時間を短縮できる場合があります。

于 2013-07-16T11:12:20.740 に答える