azure - Azure Data Factory のデータセットのスライス

Question

Azure Data Factory でのスライシング (データセットの可用性) を理解するのに苦労しています。変更されないソースデータセットがあるとします。次に、何らかの理由で、ソースデータセットの 1 時間ごとのスライスを設定しました。各スライスは同一になりますか? そのような場合にスライスを使用するポイントは何ですか (つまり、なぜそれが必要なのですか)? または別のケースとして、ソースデータセットに継続的に新しいデータ (イベントログなど) が追加されているとします。そして毎朝、そのログのすべての履歴を分析したいと思います。その後、毎日のスライスを設定する必要がありますか? 各スライスには、完全な履歴が含まれますか、それとも最後の日だけが含まれますか?

score 2 · Accepted Answer

スライスは、パイプラインの start プロパティと end プロパティで定義された期間内にパイプラインが実行される間隔です。修正ソースがあり、アクティビティを複数回実行する場合、常に同じソースが使用されます (変更されないため)。開始時刻と終了時刻を 1 日、頻度を 1 時間に設定すると、アクティビティは 24 回実行されます。24 個のスライスがあり、すべて同じデータソースを使用します。

2 番目のシナリオでは、データが変化し続ける場合、頻度を 1 日 1 回に設定できます。処理される内容は、パイプラインで定義したアクティビティによって異なります。たとえば、パイプラインが処理を終了すると古いソースを削除するか、アクティビティに新しいデータのみを取得するロジックがあるとします。

azure - Azure Data Factory のデータ セットのスライス

1 に答える 1

Related

Reference

azure - Azure Data Factory のデータセットのスライス