私は Oozie で SparkAction ジョブの例をいくつか見つけましたが、それらのほとんどは Java です。Cloudera CDH Quickstart 5.4.0 (Spark バージョン 1.4.0 を使用) でサンプルを少し編集して実行します。
ワークフロー.xml
<workflow-app xmlns='uri:oozie:workflow:0.5' name='SparkFileCopy'>
<start to='spark-node' />
<action name='spark-node'>
<spark xmlns="uri:oozie:spark-action:0.1">
<job-tracker>${jobTracker}</job-tracker>
<name-node>${nameNode}</name-node>
<prepare>
<delete path="${nameNode}/user/${wf:user()}/${examplesRoot}/output-data/spark"/>
</prepare>
<master>${master}</master>
<mode>${mode}</mode>
<name>Spark-FileCopy</name>
<class>org.apache.oozie.example.SparkFileCopy</class>
<jar>${nameNode}/user/${wf:user()}/${examplesRoot}/apps/spark/lib/oozie-examples.jar</jar>
<arg>${nameNode}/user/${wf:user()}/${examplesRoot}/input-data/text/data.txt</arg>
<arg>${nameNode}/user/${wf:user()}/${examplesRoot}/output-data/spark</arg>
</spark>
<ok to="end" />
<error to="fail" />
</action>
<kill name="fail">
<message>Workflow failed, error
message[${wf:errorMessage(wf:lastErrorNode())}]
</message>
</kill>
<end name='end' />
</workflow-app>
ジョブのプロパティ
nameNode=hdfs://quickstart.cloudera:8020
jobTracker=quickstart.cloudera:8032
master=local[2]
mode=client
examplesRoot=examples
oozie.use.system.libpath=true
oozie.wf.application.path=${nameNode}/user/${user.name}/${examplesRoot}/apps/spark
Oozie ワークフローの例 (Java) は、タスクを完了して実行することができました。
spark-submit
ただし、Python / PySpark を使用してジョブを作成しました。<class>
私は瓶のためにとを削除しようとしました
<jar>my_pyspark_job.py</jar>
しかし、Oozie-Spark ジョブを実行しようとすると、ログにエラーが表示されます。
Launcher ERROR, reason: Main class [org.apache.oozie.action.hadoop.SparkMain], exit code [2]
Python / PySpark を使用している場合<class>
、タグには何を配置すればよいのでしょうか?<jar>