2

TestDFSIO および TeraSort ベンチマーク ツールを使用して、いくつかの Hadoop テストを実行しています。私は基本的に、処理能力とデータノードのスケーラビリティの直線性を評価するために、さまざまな量のデータノードでテストしています。

During the above mentioned process, I have obviously had to restart several times all Hadoop environment. Every time I restarted Hadoop, all MapReduce jobs are removed and the job counter starts again from "job_2013*_0001". For comparison reasons, it is very important for me to keep all the MapReduce jobs up that I have previously launched. So, my question is:

¿How can I avoid Hadoop removes all MapReduce-job history after it is restarted? ¿Is there some property to control job removing after Hadoop environment restarting?

Thanks!

4

1 に答える 1

0

MR ジョブ履歴ログは Hadoop の再起動直後には削除されず、新しいジョブは *_0001 からカウントされ、Hadoop の再起動後に開始された新しいジョブのみがリソース マネージャー Web ポータルに表示されます。実際、yarn defaultには 2 つのログ関連の設定があります。

# this is where you can find the MR job history logs
yarn.nodemanager.log-dirs = ${yarn.log.dir}/userlogs 

# this is how long the history logs will be retained
yarn.nodemanager.log.retain-seconds = 10800

デフォルトの ${yarn.log.dir} は $HADOOP_HONE/etc/hadoop/yarn-env.sh で定義されています。

YARN_LOG_DIR="$HADOOP_YARN_HOME/logs"

ところで、Hadoop 1.X を使用している場合は、mapred-env.sh にも同様の設定があります。

于 2013-11-25T05:30:37.637 に答える