azure-data-factory-2 - ADF データフロー。クラスターの起動時間を制御または影響を与えることはできますか? (「TTL」ではありません)

Question

はい、TTL については知っています。はい、設定しています。いいえ、それは私がここで尋ねていることではありません。

Dataflowの初期クラスタのスピンアップには約5 分かかります。
既存の「ウォーム」クラスター (つまり、TTL を使用して「アライブ」のままになっているクラスター)からコンピューティングの取得を開始すると、新しいデータフローにはまだ1 ～ 2 分かかるようです。

これらは、特に複数ステップの ETL プロセスがあり、パイプラインを分割して懸念事項を分離している場合 (または、データフローをループで実行している場合、ソース日ごとにデータを処理する場合) は非常に多くなります。

TTL を制御すると、これら 2 つの可能性のどちらをトリガーするかをある程度制御できますが、2 分でもかなりのオーバーヘッドになる可能性があります。(実行時間の半分が 1 ～ 2 分間の「Acquire Compute」の起動を待機しているパイプラインがあります)

それぞれの場合に起動にかかる時間を制御できますか? 起動を高速化するためにできること、または事態をさらに悪化させないようにするために避けるべきことはありますか?

score 0 · Accepted Answer

この問題を正確に修正するために、町に新しい機能があります。

リリースブログ:

https://techcommunity.microsoft.com/t5/azure-data-factory/how-to-startup-your-data-flows-execution-in-less-than-5-seconds/ba-p/2267365

ADF は、データフロー TTL の Azure Integration Runtime に新しいオプションを追加しました: クイック再利用。... TTL 設定で再利用オプションを選択することにより、最後のデータフローがパイプラインで実行された後、その期間、Spark クラスターを維持するように ADF に指示できます。これにより、データフローアクティビティで同じ Azure IR を使用して、順次実行が大幅に高速化されます。

azure-data-factory-2 - ADF データフロー。クラスターの起動時間を制御または影響を与えることはできますか? (「TTL」ではありません)

1 に答える 1

Related

Reference