AZ 全体が機能停止で失われるという最近のインシデントに続いて、Dataflow フェイルオーバー手順をよりよく理解したいと思います。
データフロー ジョブ (ストリーミング、PubSub から BigQuery へ) のワーカー ノードを手動で削除したところ、それらは正常に再作成/再起動されましたが、データフロー プロセス自体は復旧していませんでした。
すべてのステータスが OK であるにもかかわらず、データ項目が流れていませんでした。
フローを再開する唯一の方法は、ジョブをキャンセルして再送信することでした。
手動による削除が有効なテストではないことは理解していますが、人的エラーの要因を軽視することはできません.
ワークフローが自動的に再開されるべきであると私は理解していますが、ここでは観察されたケースではありません。
何が恋しいですか?