web-services - レジリエンスを高めるために「Chaos Monkey」を書く

Question

かなりオープンな質問で申し訳ありませんが、非常に価値のある議論の領域だと思います。

最近のAWS の停止とそれに続く膨大な数のホラーストーリーに続いて、私は Netflix が適用した Chaos Monkey の「テクニック」に本当に感銘を受けました (ほぼ無傷で生き残った数少ないものの 1 つです。

この概念を知らない人のために説明すると、これは基本的に、回復力を継続的にテストする方法として、インフラストラクチャを巡回し、途中で混乱を引き起こす小さなボットです。

Jeff Atwood の Chaos Monkey の記事を除けば、これが他の場所で採用されていることについてはほとんど見つけることができませんでした。

優れたテスト駆動型開発が堅固な基盤であることは理解していますが、これは、最新の状態を維持したい企業/組織の武器庫への素晴らしい追加になると思います。

score 6 · Accepted Answer

システムに負荷をかけるために実行できるテストがいくつかあります。データベースに書き込むページのロードテストに apache ベンチを使用するのが好きです。ヒット数と同時ユーザー数の両方についてテストします

500 人の同時ユーザーが合計 5000 件のリクエストを行う
$ ab -n 5000 -c 500 url

Web サーバーがこれに耐えられることはわかっていますが、情報をログに記録する方法に問題があることがわかりました。サイトのさまざまな側面を指摘できます。

キャッシュを使用すると、テストの途中でキャッシュをクリアして、すべてが迅速に回復することを確認できます。

サーバーを VM にレプリケートできる場合は、RAM の量を変更し、ハードディスクをアンマウントし、ディスク容量を使い果たし、ネットワークインターフェイスを切断するなどの方法があります。

パスワードを総当たり攻撃して、そのユーザーのレートを制限する前に、システムが n 回のログイン試行のみを許可するようにすることができます。

1 に答える 1