はい、TTL については知っています。はい、設定しています。いいえ、それは私がここで尋ねていることではありません。
Dataflowの初期クラスタのスピンアップには約5 分かかります。
既存の「ウォーム」クラスター (つまり、TTL を使用して「アライブ」のままになっているクラスター)からコンピューティングの取得を開始すると、新しいデータフローにはまだ1 ~ 2 分かかるようです。
これらは、特に複数ステップの ETL プロセスがあり、パイプラインを分割して懸念事項を分離している場合 (または、データフローをループで実行している場合、ソース日ごとにデータを処理する場合) は非常に多くなります。
TTL を制御すると、これら 2 つの可能性のどちらをトリガーするかをある程度制御できますが、2 分でもかなりのオーバーヘッドになる可能性があります。(実行時間の半分が 1 ~ 2 分間の「Acquire Compute」の起動を待機しているパイプラインがあります)
それぞれの場合に起動にかかる時間を制御できますか? 起動を高速化するためにできること、または事態をさらに悪化させないようにするために避けるべきことはありますか?