5

4 ノードの RedShift クラスターがあります。

  1. ノードの 1 つがダウンすると、クラスター全体が使用できなくなりますか?
  2. はいの場合 - どのくらいの期間ですか?
  3. クラスターが復旧したとき - 障害が発生する前とまったく同じ時点に戻ったのか、それともデータが数時間前の S3 スナップショットにロールバックされた可能性があるのか​​?
  4. この状況をシミュレートして、このシナリオを自分で確認するにはどうすればよいですか?

どうもありがとう!

4

2 に答える 2

8

単一ノードの障害の場合、Amazon は新しいノードを開始し、他のノードからデータをストリーミングします (各ブロックは 2 つの異なるノードに書き込まれます)。このような場合、次のことが期待できます。

  1. 新しいノードが起動するまでのクラスター全体のダウンタイム + DB 情報で埋められます。約 3 ~ 4 分である必要があります。
  2. この 3 ~ 4 分後、そのクラスターはダウンする前とまったく同じ時点に戻ります。クラスターは読み取りと書き込みの両方に使用できます。
  3. クラスター内のデータの再分散により、速度が低下する場合があります。

複数のノードに障害が発生した場合、redshift は最新の S3 バックアップから自身を復元します。S3 バックアップは、次の場合に実行されます。

  1. 最後のバックアップから 8 時間経過している場合
  2. 最後のバックアップ以降、RedShift が 5 GB を超えるデータでいっぱいになった場合
  3. 手動で
  4. クラスターを終了することを選択した場合、最終スナップショットのオプションがあります
于 2014-01-15T12:38:30.313 に答える
5

それはちょうど私のクラスターに起こりました - ノードの 1 つが失敗しました。ダッシュボードに通知されるまでに約 20 分かかりました (「パフォーマンス」タブには異常が表示されましたが、「ステータス」タブには正常が表示されました)。

初期障害から 1 時間後、クラスターはその状態を「変更中」に変更し、さらに 1 時間後に新しいノードが配置されました。

「最近のイベント」にメッセージがあります:

Amazon Redshift クラスター「xxx」のノードは、2013 年 12 月 18 日 11:42 UTC に自動的に置き換えられました。現在、クラスターは正常に動作しています。

クラスターが利用できなかった間ずっと、クエリは実行されず、インポートもできませんでした。

データは障害の瞬間とまったく同じです。

于 2013-12-18T15:46:50.940 に答える