0

4 つの異なるアクティビティで構成されるパイプラインがあります。各アクティビティは、次のアクティビティの前提条件です。つまり、最初のアクティビティは 2 番目のアクティビティの入力を生成し、2 番目のアクティビティは 3 番目のアクティビティの入力を生成します。すべての入力フォルダーと出力フォルダーをテーブルとして定義し、パイプラインで各ジョブの出力を次のように追加しました。次へのインプット。

私の仮定では、各アクティビティが実行されて出力フォルダーが生成され、次のアクティビティがそれを入力として受け取ります。ただし、パイプラインを実行すると、最初のアクティビティは正常に終了しますが、2 番目のアクティビティを実行すると、最初のアクティビティが実行されているように見えます。必要なパラメーターを渡しませんでした)! アクティビティの実行方法に何か欠けていますか?

私のアクティビティは HDInsight アクティビティです。

私は Oozie のバックグラウンドを持っており、パイプラインを Oozie ワークフローと考えています。

4

2 に答える 2

0

基本的に、出力データ テーブルの可用性構成設定によって、アクティビティがいつ実行されるかが決まります。ジョブを別々のパイプラインに分割してみることができます。また、そのように図で見て全体の流れをデバッグしやすくなると思います。

編集:システム変数 (WindowsStart など) を使用して、パイプラインチェーン アクティビティでアクティビティをチェーンできます。しかし、ビジュアルとデバッグの観点から、アクティビティをパイプラインに分離する方が簡単だと思います。

于 2015-12-20T12:45:08.000 に答える
0

パイプラインは 1 から n のアクティビティで構成され、パイプライン内の各アクティビティは 0 から n の入力と 1 から n の出力を持つことができます。パイプラインでアクティビティを連鎖させ、パイプラインのアクティブな期間、つまりパイプラインでアクティビティを実行する開始と終了を設定できます。

于 2016-01-07T18:59:10.187 に答える