1

AZ 全体が機能停止で失われるという最近のインシデントに続いて、Dataflow フェイルオーバー手順をよりよく理解したいと思います。

データフロー ジョブ (ストリーミング、PubSub から BigQuery へ) のワーカー ノードを手動で削除したところ、それらは正常に再作成/再起動されましたが、データフロー プロセス自体は復旧していませんでした。

すべてのステータスが OK であるにもかかわらず、データ項目が流れていませんでした。

フローを再開する唯一の方法は、ジョブをキャンセルして再送信することでした。

手動による削除が有効なテストではないことは理解していますが、人的エラーの要因を軽視することはできません.

ワークフローが自動的に再開されるべきであると私は理解していますが、ここでは観察されたケースではありません。

何が恋しいですか?

4

1 に答える 1

2

Dataflow は、物理障害に対する回復力を GCE に依存しているため、ノードの手動削除からの復旧はサポートしていません。明示的な削除は GCE の停止をシミュレートしないため、関心のある回復力のプロパティはテストされません。

于 2016-07-07T18:14:02.177 に答える