問題タブ [oozie-coordinator]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
766 参照

shell - oozie で mahout コマンドをスケジュール/実行する

oozie scheduler を使用して mahout コマンド - sequence2sparse を実行しようとしていますが、エラーが発生しています。oozie - shell タグを使用して mahout コマンドを実行しようとしましたが、何も機能しませんでした。

以下は、oozie のワークフローです。

また、シェルスクリプトを作成してoozieで実行してみました

job.properties を

そして、GenerateBrandSparseFile.sh は

しかし、どのオプションも機能していません。後者のエラーは -

SLF4J:説明については、http: //www.slf4j.org/codes.html#multiple_bindingsを参照してください。SLF4J: 実際のバインディングのタイプは [org.slf4j.impl.Log4jLoggerFactory] ​​sudo: tty が存在せず、askpass プログラムが指定されていません 15/06/05 12:23:59 WARN driver.MahoutDriver: クラスパスに seq2sparse.props が見つかりません。コマンドライン引数のみを使用してください 15/06/05 12:24:01 INFO vectorizer.SparseVectorsFromSequenceFiles: 最大 n-gram サイズ: 1

このエラーについてsudo: no tty presentは、/etc/sudoers - Defaults !requiretty をコメントアウトしました。

Mahout は、oozie サーバーがインストールされているノードにインストールされます。

また、次の Oozie ワークフローは無効です。

エラー-Error: E0701 : E0701: XML schema error, cvc-complex-type.2.4.a: Invalid content was found starting with element 'ssh'. One of '{"uri:oozie:workflow:0.4":map-reduce, "uri:oozie:workflow:0.4":pig, "uri:oozie:workflow:0.4":sub-workflow, "uri:oozie:workflow:0.4":fs, "uri:oozie:workflow:0.4":java, WC[##other:"uri:oozie:workflow:0.4"]}' is expected.

mahout をすべてのノードにインストールすることは役に立ちますか?- (oozie は任意のノードでスクリプトを実行できます)。Hadoop クラスターで mahout を使用できるようにする方法はありますか?

他のソリューションも大歓迎です。

前もって感謝します。

編集:アプローチを少し変更し、seq2sparse クラスを直接呼び出しています。ワークフローは -

それでもジョブは実行されていません。エラーは

0 投票する
2 に答える
3469 参照

shell - シェル スクリプトを介して Oozie ワークフローを呼び出し、ワークフローの完了までブロック/待機する方法

複数のアクション ノードで構成される Oozie を使用してワークフローを作成し、コーディネーターを介してそれらを正常に実行できました。

ラッパー シェル スクリプトを介して Oozie ワークフローを呼び出したいと考えています。

ラッパー スクリプトは Oozie コマンドを呼び出し、Oozie ジョブが完了するまで待機し (成功またはエラー)、Oozie 成功ステータス コード (0) または失敗した Oozie アクション ノードのエラー コード (Oozie ワークフローのいずれかのノードが失敗した)。

これまで見てきたことから、oozie コマンドを呼び出してワークフローを実行するとすぐに、コマンドが終了し、ジョブ ID が Linux コンソールに出力されますが、oozie ジョブはバックエンドで非同期に実行され続けます。

Oozie コーディネーター ジョブが完了するまでラッパー スクリプトをブロックし、成功/エラー コードを返すようにします。

Oozie 機能のいずれかを使用してこれを達成する方法/方法を教えてください。

Linux で Oozie バージョン 3.3.2 と bash シェルを使用しています。

注: なぜこのような機能が必要なのか知りたい場合は、ラッパー シェル スクリプトが Oozie ジョブが実行されている時間、Oozie ジョブが完了した時点を認識し、それに応じて終了コードを返す必要があります。ラッパー スクリプトを呼び出している親プロセスは、ジョブが正常に完了したかどうかを認識し、エラーが発生した場合は、サポート チームにアラート/チケットを発行します。

0 投票する
1 に答える
527 参照

hadoop - Hue v3.7 で Oozie コーディネーターをエクスポートするには?

Hue 3.7 でコーディネーターをエクスポートする方法を知りたいのですが、そのバージョンの UI ではまだ可能ではないと思います。これらが保存されている Hue ノードに場所はありますか、または構成を手動で実行する必要がありますか? バックアップ/移行の目的でエクスポートが必要です。

ありがとう

0 投票する
1 に答える
340 参照

oozie - Oozie ジョブがスケジュールされた間隔よりも長くかかっています

Oozie MapReduce ジョブを 15 分ごとに実行するようにスケジュールしています。各ジョブがその設定時間よりも長くかかるとどうなるのだろうか? それは仕事のバックログにつながりますか?それとも、前のジョブがまだ実行されている間に、Oozie が新しいジョブの新しいタスク / スレッド / フォークを作成しますか?

0 投票する
1 に答える
1034 参照

hadoop - Hive テーブルへの挿入時に HDFS から動的ファイル名を選択する方法

ハイブテーブルがあります。ここで、ジョブが特定の場所にあるファイルを毎日検索するワークフローを作成する必要があります -

したがって、毎日のワークフローは自動的にファイル名を選択し、データを Hive テーブル (MyTable) にロードします。

以下のようにロードのスクリプトを書いています- LOAD DATA INPATH "/data/${filepath}" OVERWRITE INTO TABLE MyTable.

プレーンなハイブ ジョブと同じように実行しているときに、ファイル パスを data_2015-07-07.csv として設定できますが、Oozie コーディネーターでそれを行う方法で、名前が日付のパスが自動的に選択されるようにします。

Oozie コーディネーターからワークフロー パラメーターを設定しようとしました-

0 投票する
2 に答える
713 参照

oozie - Oozie ジョブ コーディネーターの値を変更するには?

Oozie コーディネーターによってスケジュールされ、4 時間ごとに実行される mapreduce ジョブがあります。この mapreduce ジョブはパラメーター (たとえば k) を取り、その値は job.config ファイルで設定されます。2 回の実行の間にこのパラメーターの値を変更した場合、更新された (新しい) 値が選択されるのか、それとも元の (古い) 値に固執するのかを知りたいです。

0 投票する
1 に答える
88 参照

hadoop - Oozie がディレクトリ内の一連のファイルを生成

ログファイルを Hadoop に取り込もうとしています。

oozie を使用して取り込みタスク (spark で記述) をトリガーし、oozie にファイル名をタスクに渡させたいと考えています。

ログファイルは次のように設定されると思います。

(等)。

1. oozie に /example/${YEAR}-${MONTH}-${DAY}-${HOUR}:${MINUTE}/Log1 の下のすべてのファイル名を生成させる方法/そしてそれを私のアプリに渡します。と

  1. Oozie に /example/${YEAR}-${MONTH}-${DAY}-${HOUR}:${MINUTE}/Log2/ の下のすべてのファイル名を並行して生成させ、それを 2 回目の呼び出しに渡す方法私の仕事の。