azure datafactoryで、データをBLOBからSQLに複製せずにコピーする方法、つまり、パイプラインが15分ごとのスライスで実行される場合、重複データの取得を回避する方法
3 に答える
解決策は自動ではありませんが、コピー アクティビティを使用し、SQL シンクでストアド プロシージャを使用して、既に存在する可能性のある行を処理できます。おそらく、TSQL Merge ステートメント、または内部の Insert / Update ステートメントです。
https://azure.microsoft.com/en-us/documentation/articles/data-factory-copy-activity/
SQL シンクのストアド プロシージャを呼び出します。データを SQL Server または Azure SQL データベースにコピーするときに、ユーザー指定のストアド プロシージャを構成して呼び出すことができました。
ありがとう、ジェイソン
私は同じ問題を抱えていて、このリンクが役立つことがわかりました: https://www.mssqltips.com/sqlservertip/6365/incremental-file-load-using-azure-data-factory/
私たちの場合、ファイルを BLOB ストレージに追加するだけで、それ以降は決して変更しないので、ジョブは直近の 15 分以内に作成された新しいファイルを取得して SQL コンテナーに追加するだけです。リンクに記載されている増分コピー手順は、これまでのところうまく機能しているようです。
この後、ストアド プロシージャを追加して SQL コンテナーを操作する必要がある場合があると想像できますが、その必要はありませんでした。