2

Azure SQL テーブルにコピーする必要があるログ データを含む多数の BLOB があり、より多くの BLOB が定期的に到着します。ブロブは、形式で名前が付けられます[ORIGINALTARFILENAME].tar.gz.log

データ ファクトリを使用して、タイムアウトせずに最初のバックフィルを実行し、同じパイプラインを変換して、BLOB が 2 回処理されないように定期的なスケジュールで実行するにはどうすればよいでしょうか?

それは本質的にですか:

  1. 1 回限りのプロセスを作成する
  2. VSでプロセスを開く
  3. ある種のスケジュールを含めるように json を修正します
  4. 変更をデプロイする
4

1 に答える 1

1

それは、データがどの程度正確に編成されているかによって異なります。Data Factory は、時間ベースのスライスに簡単に分割できるデータセットで最適に機能します。BLOB が作成された日付と時刻が含まれている場合ORIGINALTARFILENAMEは、1 つのパイプラインだけで簡単に目的を達成できます。

次の公式ドキュメントの例を出発点として使用できます: https://azure.microsoft.com/en-us/documentation/articles/data-factory-azure-blob-connector/

startDate次に、既に存在するすべてのブロブを取得するのに十分な過去のアクティビティを設定します。バックフィルは、入ってくる新しいスライスと並行して実行され (アクティビティconcurrencyを増やすと、何も不足しないようになります)、特別な方法で処理する必要はありません。各ブロブは正確に 1 つのスライスに対応し、正確に処理されるためです。一度。

于 2016-07-02T23:13:14.453 に答える