問題タブ [delta-lake]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - Databricks デルタ ファイルから挿入/追加のみをストリームアウトまたは抽出する方法は?
Spark Structured Streaming ジョブを実行して Databricks Delta ソース ファイルを読み取り、ソース ファイルへの挿入のみを抽出するシナリオがあります。更新/削除を除外したい。
小さいファイルをフォローしようとしましたが、コードが期待どおりに動作しないようです。
apache-spark - デルタ レイクの書き込み時に (partitionBy を使用して) パーティションを使用しても効果がない
最初にデルタ レイクを作成するときは、パーティションを (partitionBy を使用して) 使用するかどうかにかかわらず、違いはありません。
書き込み前に同じ列で再パーティションを使用すると、寄木細工ファイルの数のみが変更されます。パーティション化する列を明示的に「null 不可」にしても、効果は変わりません。
バージョン:
- Spark 2.4 (実際には 2.4.0.0-mapr-620)
- スカラ 2.11.12
- デルタ レイク 0.5.0 (io.delta:delta-core_2.11:jar:0.5.0)
結果の delta-lake ディレクトリは次のようになります。
私は次のようなものを期待します