問題タブ [oozie-coordinator]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
shell - oozie で mahout コマンドをスケジュール/実行する
oozie scheduler を使用して mahout コマンド - sequence2sparse を実行しようとしていますが、エラーが発生しています。oozie - shell タグを使用して mahout コマンドを実行しようとしましたが、何も機能しませんでした。
以下は、oozie のワークフローです。
また、シェルスクリプトを作成してoozieで実行してみました
job.properties を
そして、GenerateBrandSparseFile.sh は
しかし、どのオプションも機能していません。後者のエラーは -
SLF4J:説明については、http: //www.slf4j.org/codes.html#multiple_bindingsを参照してください。SLF4J: 実際のバインディングのタイプは [org.slf4j.impl.Log4jLoggerFactory] sudo: tty が存在せず、askpass プログラムが指定されていません 15/06/05 12:23:59 WARN driver.MahoutDriver: クラスパスに seq2sparse.props が見つかりません。コマンドライン引数のみを使用してください 15/06/05 12:24:01 INFO vectorizer.SparseVectorsFromSequenceFiles: 最大 n-gram サイズ: 1
このエラーについてsudo: no tty present
は、/etc/sudoers - Defaults !requiretty をコメントアウトしました。
Mahout は、oozie サーバーがインストールされているノードにインストールされます。
また、次の Oozie ワークフローは無効です。
エラー-Error: E0701 : E0701: XML schema error, cvc-complex-type.2.4.a: Invalid content was found starting with element 'ssh'. One of '{"uri:oozie:workflow:0.4":map-reduce, "uri:oozie:workflow:0.4":pig, "uri:oozie:workflow:0.4":sub-workflow, "uri:oozie:workflow:0.4":fs, "uri:oozie:workflow:0.4":java, WC[##other:"uri:oozie:workflow:0.4"]}' is expected.
mahout をすべてのノードにインストールすることは役に立ちますか?- (oozie は任意のノードでスクリプトを実行できます)。Hadoop クラスターで mahout を使用できるようにする方法はありますか?
他のソリューションも大歓迎です。
前もって感謝します。
編集:アプローチを少し変更し、seq2sparse クラスを直接呼び出しています。ワークフローは -
それでもジョブは実行されていません。エラーは
shell - シェル スクリプトを介して Oozie ワークフローを呼び出し、ワークフローの完了までブロック/待機する方法
複数のアクション ノードで構成される Oozie を使用してワークフローを作成し、コーディネーターを介してそれらを正常に実行できました。
ラッパー シェル スクリプトを介して Oozie ワークフローを呼び出したいと考えています。
ラッパー スクリプトは Oozie コマンドを呼び出し、Oozie ジョブが完了するまで待機し (成功またはエラー)、Oozie 成功ステータス コード (0) または失敗した Oozie アクション ノードのエラー コード (Oozie ワークフローのいずれかのノードが失敗した)。
これまで見てきたことから、oozie コマンドを呼び出してワークフローを実行するとすぐに、コマンドが終了し、ジョブ ID が Linux コンソールに出力されますが、oozie ジョブはバックエンドで非同期に実行され続けます。
Oozie コーディネーター ジョブが完了するまでラッパー スクリプトをブロックし、成功/エラー コードを返すようにします。
Oozie 機能のいずれかを使用してこれを達成する方法/方法を教えてください。
Linux で Oozie バージョン 3.3.2 と bash シェルを使用しています。
注: なぜこのような機能が必要なのか知りたい場合は、ラッパー シェル スクリプトが Oozie ジョブが実行されている時間、Oozie ジョブが完了した時点を認識し、それに応じて終了コードを返す必要があります。ラッパー スクリプトを呼び出している親プロセスは、ジョブが正常に完了したかどうかを認識し、エラーが発生した場合は、サポート チームにアラート/チケットを発行します。
hadoop - Hue v3.7 で Oozie コーディネーターをエクスポートするには?
Hue 3.7 でコーディネーターをエクスポートする方法を知りたいのですが、そのバージョンの UI ではまだ可能ではないと思います。これらが保存されている Hue ノードに場所はありますか、または構成を手動で実行する必要がありますか? バックアップ/移行の目的でエクスポートが必要です。
ありがとう
oozie - Oozie ジョブがスケジュールされた間隔よりも長くかかっています
Oozie MapReduce ジョブを 15 分ごとに実行するようにスケジュールしています。各ジョブがその設定時間よりも長くかかるとどうなるのだろうか? それは仕事のバックログにつながりますか?それとも、前のジョブがまだ実行されている間に、Oozie が新しいジョブの新しいタスク / スレッド / フォークを作成しますか?
hadoop - Hive テーブルへの挿入時に HDFS から動的ファイル名を選択する方法
ハイブテーブルがあります。ここで、ジョブが特定の場所にあるファイルを毎日検索するワークフローを作成する必要があります -
したがって、毎日のワークフローは自動的にファイル名を選択し、データを Hive テーブル (MyTable) にロードします。
以下のようにロードのスクリプトを書いています- LOAD DATA INPATH "/data/${filepath}" OVERWRITE INTO TABLE MyTable.
プレーンなハイブ ジョブと同じように実行しているときに、ファイル パスを data_2015-07-07.csv として設定できますが、Oozie コーディネーターでそれを行う方法で、名前が日付のパスが自動的に選択されるようにします。
Oozie コーディネーターからワークフロー パラメーターを設定しようとしました-
oozie - Oozie ジョブ コーディネーターの値を変更するには?
Oozie コーディネーターによってスケジュールされ、4 時間ごとに実行される mapreduce ジョブがあります。この mapreduce ジョブはパラメーター (たとえば k) を取り、その値は job.config ファイルで設定されます。2 回の実行の間にこのパラメーターの値を変更した場合、更新された (新しい) 値が選択されるのか、それとも元の (古い) 値に固執するのかを知りたいです。
hadoop - Oozie がディレクトリ内の一連のファイルを生成
ログファイルを Hadoop に取り込もうとしています。
oozie を使用して取り込みタスク (spark で記述) をトリガーし、oozie にファイル名をタスクに渡させたいと考えています。
ログファイルは次のように設定されると思います。
(等)。
1. oozie に /example/${YEAR}-${MONTH}-${DAY}-${HOUR}:${MINUTE}/Log1 の下のすべてのファイル名を生成させる方法/そしてそれを私のアプリに渡します。と
- Oozie に /example/${YEAR}-${MONTH}-${DAY}-${HOUR}:${MINUTE}/Log2/ の下のすべてのファイル名を並行して生成させ、それを 2 回目の呼び出しに渡す方法私の仕事の。