scala - Oozie で Spark ジョブを起動すると失敗する (Error MetricsSystem)

Question

spark-submitで起動する spark jar があり、正常に動作します (ファイルの読み取り、RDD の生成、hdfs への保存)。ただし、Oozie ジョブ(oozie:spark-action)内で同じ jar を起動しようとすると、spark ジョブは失敗します。

ログを調べたところ、最初に表示されるエラーは次のとおりです。

エラー MetricsSystem: シンククラス org.apache.spark.metrics.sink.MetricsServlet をインスタンス化できません。

さらに、spark スクリプトをいじり始めたところ、saveAsText関数に問題があることがわかりました。HDFS に書き込まずに同じ Spark ジョブを実行すると、ワークフロー全体が正常に機能します。

助言がありますか？

score 0 · Accepted Answer

問題は、oozie ジョブを実行しているクラスターの側にありました。

ジョブワークフローに引数を明示的に追加する必要がありました。これは、引数が考慮されていなかったからです。

<spark-opts>--queue HQ_IBNF --conf "spark.executor.extraJavaOptions=-Djava.library.path=/opt/application/Hadoop/current/lib/native"</spark-opts>

1 に答える 1