EMR 5.14 クラスターでOozie ワークフローを使用して spark アクションを実行しているときに、以下のエラーに直面しています。
pyspark.sql.utils.IllegalArgumentException: u"'org.apache.spark.sql.hive.HiveExternalCatalog' のインスタンス化中にエラーが発生しました" 私の Pyspark スクリプトは、通常の Spark ジョブとして実行すると正常に実行されますが、Oozie Pyspark プログラムを介して実行されていません:-
spark = SparkSession.builder.appName("PysparkTest").config("hive.support.quoted.identifiers", "none").enableHiveSupport().getOrCreate()
sc = SparkContext.getOrCreate();
sqlContext = HiveContext(sc)
sqlContext.sql("show databases").show()
LINKから参照して、workflow.xml と job.properties を作成しました。
すべてのスパークとハイブ関連の構成ファイルを同じディレクトリ ($SPARK_CONF_DIR/) の下にコピーしました。Hive は、メタストアに MySQL を使用するようにも構成されています。
この Pyspark プログラムを Oozie スパーク アクションで jar ファイルとして実行するときに直面している問題を解決するのを手伝っていただければ幸いです。