Google dataproc を使用して Spark ジョブを送信し、Google Cloud Composer を使用してそれらをスケジュールしています。残念ながら、私は困難に直面しています。
.conf
Spark ジョブに引数を渡すために、ファイル (タイプセーフな構成ファイル) に依存しています。
気流データプロシージャに次の python コードを使用しています。
t3 = dataproc_operator.DataProcSparkOperator(
task_id ='execute_spark_job_cluster_test',
dataproc_spark_jars='gs://snapshots/jars/pubsub-assembly-0.1.14-SNAPSHOT.jar',
cluster_name='cluster',
main_class = 'com.organ.ingestion.Main',
project_id='project',
dataproc_spark_properties={'spark.driver.extraJavaOptions':'gs://file-dev/fileConf/development.conf'},
scopes='https://www.googleapis.com/auth/cloud-platform', dag=dag)
しかし、これは機能しておらず、いくつかのエラーが発生しています。
誰でもこれで私を助けることができますか?基本的に、ファイルをオーバーライドして、引数として my に渡す
ことができるようにしたいと考えています。
私もやってみました.conf
DataProcSparkOperator
arguments=`'gs://file-dev/fileConf/development.conf'`:
.conf
しかし、これは引数に記載されているファイルを考慮していませんでした。