1

ファイルベースの依存関係を持つコーディネーターを作成しようとしています。私の目標は、指定されたファイルが作成された場合にのみ、コーディネーターがワークフローを実行することです。ファイルが作成されなかった場合、コーディネーターはファイルが作成されるまで待機する必要があります。私は次のコードで試しました:

<coordinator-app name="MY_APP" frequency="1440" start="2009-02-01T00:00Z" end="2009-02-07T00:00Z" timezone="UTC" xmlns="uri:oozie:coordinator:0.1">
  <datasets>
    <dataset name="input1" frequency="60" initial-instance="2009-01-01T00:00Z" timezone="UTC">
      <uri-template>hdfs://localhost:9000/tmp/revenue_feed/${YEAR}/${MONTH}/${DAY}/${HOUR}</uri-template>
      <done-flag>trigger.dat</done-flag>
    </dataset>
  </datasets>
  <input-events>
    <data-in name="coordInput1" dataset="input1">
      <start-instance>${coord:current(-23)}</start-instance>
      <end-instance>${coord:current(0)}</end-instance>
    </data-in>
  </input-events>
  <action>
    <workflow>
      <app-path>hdfs://localhost:9000/tmp/workflows</app-path>
    </workflow>
  </action>     
</coordinator-app>

Oozie ジョブを開始しましたが、WAITING 状態です。HDFS の指定されたディレクトリ構造 (hdfs://localhost:9000/tmp/revenue_feed/${YEAR}/${MONTH}/${DAY}/) にファイル (trigger.dat) を作成するスクリプトを実行しました。 ${HOUR})。ファイルが作成されましたが、まだ待機中の状態です。

誰でもこれで私を助けることができます..

4

1 に答える 1

1

開始日と終了日を変更しましたが、現在は機能しています。

coordinator.xml の動作は次のとおりです。

<coordinator-app name="MY_APP" frequency="60" start="2015-01-12T05:00Z" end="2015-01-12T08:00Z" timezone="UTC" xmlns="uri:oozie:coordinator:0.1">
  <datasets>
    <dataset name="input1" frequency="30" initial-instance="2015-01-12T04:02Z" timezone="UTC">
      <uri-template>hdfs://localhost:9000/tmp/revenue_feed/${YEAR}/${MONTH}/${DAY}/${HOUR}</uri-template>
      <done-flag>trigger.dat</done-flag>
    </dataset>
  </datasets>
  <input-events>
    <data-in name="coordInput1" dataset="input1">
      <start-instance>${coord:current(-1)}</start-instance>
      <end-instance>${coord:current(0)}</end-instance>
    </data-in>
  </input-events>
  <action>
    <workflow>
      <app-path>hdfs://localhost:9000/tmp/workflows</app-path>
      <configuration>
        <property>
          <name>property1</name>
          <value>${coord:dataIn('coordInput1')}</value>
        </property>
      </configuration>
    </workflow>
  </action>     
</coordinator-app>

私が観察したいくつかのポイントは次のとおりです。

  1. 予想されるディレクトリ構造は、定義したデータセットの initial-instance="2015-01-12T04:02Z" および frequency="30" に基づいています。

  2. 以下のプロパティ データセットを宣言しないと、Oozie によって考慮されません

    <property> <name>property1</name> <value>${coord:dataIn('coordInput1')}</value> </property>

  3. Oozie は常に GMT/UTC タイム ゾーンを考慮します。ワークフローをスケジュールするときは、GMT を念頭に置いて、それに応じてスケジュールしてください。

  4. ディレクトリが作成されるまで、コーディネーター ジョブは RUNNING 状態になりますが、ワークフロー ジョブは WAITING 状態になります。

于 2015-01-12T09:35:48.463 に答える