Spark Structured Streaming ジョブを実行して Databricks Delta ソース ファイルを読み取り、ソース ファイルへの挿入のみを抽出するシナリオがあります。更新/削除を除外したい。
小さいファイルをフォローしようとしましたが、コードが期待どおりに動作しないようです。
spark
.readStream
.format("delta")
.option("latestFirst","true")
.option("ignoreDeletes", "true")
.option("ignoreChanges","true")
.load("/mnt/data-lake/data/bronze/accounts")
.writeStream
.format("delta")
.outputMode("append")
.option("checkpointLocation","/mnt/data-lake/tmp/chkpnt_accounts_inserts")
.option("path","/mnt/data-lake/tmp/accounts_inserts")
.start()