0

現在、Platform Computing "Platform Process Manager" (Flow Manager) バージョン 8.1 によって作成されたlsb.eventsログ ファイルの内容を解読しようとしています。

ドキュメントのさまざまなソースから、jStatus 変数に関する次の説明が表示されます。

  • 4=実行
  • 32=JOB_STAT_EXIT
  • 64=JOB_STAT_DONE

ただし、JOB_STATUS エントリには、2 と 192 の jStatus 値もあります。 これらの値は何を表していますか?

この実装がバンドルされているため、SAS にタグ付けします。補足として、lsb.events ファイルの実際のフィールドが、前述のドキュメントに従って表示されるはずのフィールドと一致しない場合があることに気付きました..

4

2 に答える 2

2

ステータス 2 は PSUSP ステータスのジョブを表し、いくつかの方法で達成されます (たとえば、ジョブを -H オプションでサブミットしてスケジュールから保留するなど)。

192 の場合、答えはジョブ ステータスがビットフィールドであるということです。この場合、2 つのビットが設定されています。

  • 64 = JOB_STAT_DONE
  • 128 = JOB_STAT_PDONE

JOB_STAT_PDONE は、ジョブに実行後スクリプトが定義されていて、正常に完了したことを意味します。

ジョブ ステータス ビットの有効な値は、lsf/lsbatch.hLSF に同梱されているファイルの include ディレクトリにあります。<LSF_INSTALL_DIR>/<LSF_VERSION>/include/lsf/lsbatch.h

于 2015-01-12T19:07:09.903 に答える
0

@Squirrel のおかげで拡大するために、私たちのC:\LSF_7.0\7.0\include\lsf\lsbatch.hファイルの関連する内容は次のとおりです。

/**  * \addtogroup job_states job_states  * define job states  */ /*@{*/
#define JOB_STAT_NULL         0x00       /**< State null*/
#define JOB_STAT_PEND         0x01       /**< The job is pending, i.e., it 
                                            * has not been dispatched yet.*/
#define JOB_STAT_PSUSP        0x02       /**< The pending job was suspended by its
                                            * owner or the LSF system administrator.*/
#define JOB_STAT_RUN          0x04       /**< The job is running.*/
#define JOB_STAT_SSUSP        0x08       /**< The running job was suspended 
                                           * by the system because an execution 
                                           * host was overloaded or the queue run 
                                           * window closed. (see \ref lsb_queueinfo, 
                                           * \ref lsb_hostinfo, and lsb.queues.)
                                           */
#define JOB_STAT_USUSP        0x10       /**< The running job was suspended by its 
                                           * owner or the LSF system administrator.*/
#define JOB_STAT_EXIT         0x20       /**< The job has terminated with a non-zero
                                           * status - it may have been aborted due 
                                           * to an error in its execution, or 
                                           * killed by its owner or by the 
                                           * LSF system administrator.*/
#define JOB_STAT_DONE         0x40       /**< The job has terminated with status 0.*/
#define JOB_STAT_PDONE        (0x80)     /**< Post job process done successfully */
#define JOB_STAT_PERR         (0x100)    /**< Post job process has error */
#define JOB_STAT_WAIT         (0x200)    /**< Chunk job waiting its turn to exec */
#define JOB_STAT_RUNKWN       0x8000     /* Flag : Job status is UNKWN caused by 
                                          * losting contact with remote cluster */
#define JOB_STAT_UNKWN        0x10000    /**< The slave batch daemon (sbatchd) on 
                                          * the host on which the job is processed 
                                          * has lost contact with the master batch 
                                          * daemon (mbatchd).*/

繰り返しますが、10 進数では次のようになります。

0       JOB_STAT_NULL
1       JOB_STAT_PEND
2       JOB_STAT_PSUSP
4       JOB_STAT_RUN
8       JOB_STAT_SSUSP 
16      JOB_STAT_USUSP 
32      JOB_STAT_EXIT 
64      JOB_STAT_DONE
128     JOB_STAT_PDONE 
256     JOB_STAT_PERR 
512     JOB_STAT_WAIT
32768   JOB_STAT_RUNKWN 
65536   JOB_STAT_UNKWN
于 2015-01-13T16:14:19.423 に答える