完了したジョブの ID があります。実行時間、割り当てられたノードなどの詳細情報を確認するにはどうすればよいですか? SGE にはそのためのコマンド (qacct?) があることを覚えています。しかし、PBS や Torque は見つかりませんでした。ありがとう。
5 に答える
ジョブ アカウンティングには、完了したジョブを表示するためのルート アクセスが必要であるか、またはクラスター管理者が pbstools をインストールしている (どちらもユーザーの制御外) 必要があるため、最も簡単な方法は、
tracejob $PBS_JOBID
提出スクリプトの最後の行。スケジューラが MAUI の場合は、 checkjob -vv $PBS_JOBID別の方法があります。これらのコマンドは、別の出力ファイルにリダイレクトできます。
tracejob $PBS_JOBID > $PBS_O_WORKDIR/$PBS_JOBID.tracejob
これをユーザー エピローグ スクリプトとして実行して、ジョブ間でより再利用できるようにすることも可能です。
Torque については、「tracejob」コマンドを使用して、求める情報の少なくとも一部を確認できます。
公式文書:
注意すべきことの 1 つは、このツールがログを解析する便利なツールであることです。デフォルトでは、最終日のみをチェックします。「-n」オプションのドキュメントを必ずお読みください。
現在、TORQUE でこれを取得する唯一の方法は、アカウンティング ログを確認することです。ジョブ ID を grep して、ジョブのアカウンティング レコードを表示できます。次のようになります。
04/30/2014 15:20:18;Q;5000.bob;queue=batch
04/30/2014 15:33:00;S;5000.bob;user=dbeer group=dbeer jobname=STDIN queue=batch ctime=1398892818 qtime=1398892818 etime=1398892818 start=1398893580 owner=dbeer@bob exec_host=bob/0
04/30/2014 15:36:20;E;5000.bob;user=dbeer group=dbeer jobname=STDIN queue=batch ctime=1398892818 qtime=1398892818 etime=1398892818 start=1398893580 owner=dbeer@bob exec_host=bob/0 session=22933 end=1398893780 Exit_status=0 resources_used.cput=00:00:00 resources_used.mem=2580kb resources_used.vmem=37072kb resources_used.walltime=00:03:20
残念ながら、これを直接行うには root アクセスが必要です。これを回避するために、これをより適切にブラウズするのに役立つpbsacctなどのツールがあります。pbsacct は pbstools パッケージの一部であり、そのリンク先に移動します。
トルクベースのシステム。ジョブから統計情報を取得する最善の方法は、送信されたジョブ スクリプトの最後にこれを追加することです。出力は STDOUT ファイルに追加されます。
qstat -f -1 $PBS_JOBID