amazon-web-services - RedShift ノードのフェイルオーバー

Question

4 ノードの RedShift クラスターがあります。

ノードの 1 つがダウンすると、クラスター全体が使用できなくなりますか?
はいの場合 - どのくらいの期間ですか?
クラスターが復旧したとき - 障害が発生する前とまったく同じ時点に戻ったのか、それともデータが数時間前の S3 スナップショットにロールバックされた可能性があるのか?
この状況をシミュレートして、このシナリオを自分で確認するにはどうすればよいですか?

どうもありがとう！

score 8 · Accepted Answer

単一ノードの障害の場合、Amazon は新しいノードを開始し、他のノードからデータをストリーミングします (各ブロックは 2 つの異なるノードに書き込まれます)。このような場合、次のことが期待できます。

複数のノードに障害が発生した場合、redshift は最新の S3 バックアップから自身を復元します。S3 バックアップは、次の場合に実行されます。

score 5 · Accepted Answer

それはちょうど私のクラスターに起こりました - ノードの 1 つが失敗しました。ダッシュボードに通知されるまでに約 20 分かかりました (「パフォーマンス」タブには異常が表示されましたが、「ステータス」タブには正常が表示されました)。

初期障害から 1 時間後、クラスターはその状態を「変更中」に変更し、さらに 1 時間後に新しいノードが配置されました。

「最近のイベント」にメッセージがあります:

Amazon Redshift クラスター「xxx」のノードは、2013 年 12 月 18 日 11:42 UTC に自動的に置き換えられました。現在、クラスターは正常に動作しています。

クラスターが利用できなかった間ずっと、クエリは実行されず、インポートもできませんでした。

データは障害の瞬間とまったく同じです。

2 に答える 2