2

クラスターで最近実行されたすべてのジョブ (完了、失敗、実行中) を表示したいと考えています。また、ジョブごとに 1 つのエントリを表示したいと思います。を実行sacctすると、ジョブごとに 3 行再実行されState: FAILED, FAILED, COMPLETEDます。これはどういう意味ですか?また、見たい実際の情報を表示するにはどうすればよいですか?

JobNametrue意味もわかりません。

出力のコピーを次に示します。

   JobID    JobName  Partition    Account  AllocCPUS      State ExitCode 
 ------------ ---------- ---------- ---------- ---------- ---------- -------- 
 2160852               R   interact cluster_u+          2  COMPLETED      0:0 
 2160864               R   interact cluster_u+          2  COMPLETED      0:0 
 2161424               R   interact cluster_u+          2  COMPLETED      0:0 
 2161430               R   interact cluster_u+          0 CANCELLED+      0:0 
 2161431               R   interact cluster_u+          2  COMPLETED      0:0 
 2161668               R   interact cluster_u+          2  COMPLETED      0:9 
 2161682          myjob+    general cluster_u+          2     FAILED      1:0 
 2161682.bat+      batch            cluster_u+          1     FAILED      1:0 
 2161682.0          true            cluster_u+          1  COMPLETED      0:0 
 2161683          myjob+    general cluster_u+          2     FAILED      1:0 
 2161683.bat+      batch            cluster_u+          1     FAILED      1:0 
 2161683.0          true            cluster_u+          1  COMPLETED      0:0 

送信スクリプト (<% %> の値は R のパッケージ BatchJobs によって処理されることに注意してください):

 #!/bin/bash
 #SBATCH -J <%= job.name %>            # name of the job
 #SBATCH -p general
 #SBATCH --mem <%= resources$memory %>    # Memory requirements in Kbytes
 #SBATCH -o ./logs/<%= job.name %>_log.txt    # Memory requirements in Kbytes


 eval "R --vanilla --slave < <%= rscript %>"
4

1 に答える 1

3

sacct は、ジョブごとに 1 行を出力し、続いてそのジョブのジョブ ステップごとに 1 行を出力します。

 2161683          myjob+    general cluster_u+          2     FAILED      1:0  <- the job
 2161683.bat+      batch            cluster_u+          1     FAILED      1:0  <- the batch script
 2161683.0          true            cluster_u+          1  COMPLETED      0:0  <- the R step

スクリプト自体のステータスが失敗であるため、ジョブのステータスは失敗です。スクリプトに 1 つのジョブ ステップがあり、正しく終了しました。

私はよく sacct |grep -v "^[0-9]*\."、仕事の情報だけを得るために頼ります。

于 2013-10-11T21:16:48.333 に答える