azure-data-factory - Azure DataFactory パイプラインをバックフィルしてから、実行中のスケジュールに変換する方法は?

Question

Azure SQL テーブルにコピーする必要があるログデータを含む多数の BLOB があり、より多くの BLOB が定期的に到着します。ブロブは、形式で名前が付けられます[ORIGINALTARFILENAME].tar.gz.log。

データファクトリを使用して、タイムアウトせずに最初のバックフィルを実行し、同じパイプラインを変換して、BLOB が 2 回処理されないように定期的なスケジュールで実行するにはどうすればよいでしょうか?

それは本質的にですか：

1 回限りのプロセスを作成する
VSでプロセスを開く
ある種のスケジュールを含めるように json を修正します
変更をデプロイする

score 1 · Accepted Answer

それは、データがどの程度正確に編成されているかによって異なります。Data Factory は、時間ベースのスライスに簡単に分割できるデータセットで最適に機能します。BLOB が作成された日付と時刻が含まれている場合ORIGINALTARFILENAMEは、1 つのパイプラインだけで簡単に目的を達成できます。

次の公式ドキュメントの例を出発点として使用できます: https://azure.microsoft.com/en-us/documentation/articles/data-factory-azure-blob-connector/

startDate次に、既に存在するすべてのブロブを取得するのに十分な過去のアクティビティを設定します。バックフィルは、入ってくる新しいスライスと並行して実行され (アクティビティconcurrencyを増やすと、何も不足しないようになります)、特別な方法で処理する必要はありません。各ブロブは正確に 1 つのスライスに対応し、正確に処理されるためです。一度。

azure-data-factory - Azure DataFactory パイプラインをバックフィルしてから、実行中のスケジュールに変換する方法は?

1 に答える 1

Related

Reference