4 ノードの RedShift クラスターがあります。
- ノードの 1 つがダウンすると、クラスター全体が使用できなくなりますか?
- はいの場合 - どのくらいの期間ですか?
- クラスターが復旧したとき - 障害が発生する前とまったく同じ時点に戻ったのか、それともデータが数時間前の S3 スナップショットにロールバックされた可能性があるのか?
- この状況をシミュレートして、このシナリオを自分で確認するにはどうすればよいですか?
どうもありがとう!
4 ノードの RedShift クラスターがあります。
どうもありがとう!
単一ノードの障害の場合、Amazon は新しいノードを開始し、他のノードからデータをストリーミングします (各ブロックは 2 つの異なるノードに書き込まれます)。このような場合、次のことが期待できます。
複数のノードに障害が発生した場合、redshift は最新の S3 バックアップから自身を復元します。S3 バックアップは、次の場合に実行されます。
それはちょうど私のクラスターに起こりました - ノードの 1 つが失敗しました。ダッシュボードに通知されるまでに約 20 分かかりました (「パフォーマンス」タブには異常が表示されましたが、「ステータス」タブには正常が表示されました)。
初期障害から 1 時間後、クラスターはその状態を「変更中」に変更し、さらに 1 時間後に新しいノードが配置されました。
「最近のイベント」にメッセージがあります:
Amazon Redshift クラスター「xxx」のノードは、2013 年 12 月 18 日 11:42 UTC に自動的に置き換えられました。現在、クラスターは正常に動作しています。
クラスターが利用できなかった間ずっと、クエリは実行されず、インポートもできませんでした。
データは障害の瞬間とまったく同じです。