Azure Data Factory でのスライシング (データセットの可用性) を理解するのに苦労しています。変更されないソース データセットがあるとします。次に、何らかの理由で、ソース データ セットの 1 時間ごとのスライスを設定しました。各スライスは同一になりますか? そのような場合にスライスを使用するポイントは何ですか (つまり、なぜそれが必要なのですか)? または別のケースとして、ソース データセットに継続的に新しいデータ (イベント ログなど) が追加されているとします。そして毎朝、そのログのすべての履歴を分析したいと思います。その後、毎日のスライスを設定する必要がありますか? 各スライスには、完全な履歴が含まれますか、それとも最後の日だけが含まれますか?
質問する
1424 次
1 に答える
2
スライスは、パイプラインの start プロパティと end プロパティで定義された期間内にパイプラインが実行される間隔です。修正ソースがあり、アクティビティを複数回実行する場合、常に同じソースが使用されます (変更されないため)。開始時刻と終了時刻を 1 日、頻度を 1 時間に設定すると、アクティビティは 24 回実行されます。24 個のスライスがあり、すべて同じデータ ソースを使用します。
2 番目のシナリオでは、データが変化し続ける場合、頻度を 1 日 1 回に設定できます。処理される内容は、パイプラインで定義したアクティビティによって異なります。たとえば、パイプラインが処理を終了すると古いソースを削除するか、アクティビティに新しいデータのみを取得するロジックがあるとします。
于 2015-12-21T18:01:13.973 に答える