design-patterns - 最近の Amazon EC2 の停止から、分散システムの構築について何を学ぶことができますか?

Question

最近のAmazon EC2 と Amazon RDS サービスの停止から、分散システムの構築について何が学べるでしょうか?

score 2 · Accepted Answer

興味深いリンクをありがとう。明らかに、すべての分散システムは異なり、すべての停止は固有であるため、一般化することは困難です。私が持っているいくつかのテイクウェイは次のとおりです。

停止はブロックの最高の人でさえ起こります...それであなたはあなたのためにより良い計画を立てます。
分散システムの構築は難しいので、経験と経験豊富な友人が必要です。
手動での変更は一般的な原因です...AWSの記事では明示的には述べられていませんが、強く暗示されています。
多くの場合、停止は「緊急の」現象であり、単純なエラーにより、多くのシステムが指数関数的に増大する方法で相互作用します。AWSの記事では、これを「ストーム」と呼んでおり、大規模な分散システムでも同様の「ストーム」を目撃しました。結合度とバックオフパラメータのような単純な側面は、指数関数的に成長する外乱と指数関数的に減衰する外乱の違いを生む可能性があります。タコマナローズ橋について考えてみてください。おそらく類推は一筋縄ではいきませんが、いくつかの単純なパラメーターを調整することで、破壊的な共振を回避できます。
Netflixカオスモンキーは面白いです。「無駄のない」人たちは、何かが難しい場合（テストや展開など）、それが難しくなくなるまで頻繁に行う必要があることを教えてくれました。おそらく、システム障害/回復力がこのアプローチの次のフロンティアです。

score 0 · Accepted Answer

今では、Netflix の Chaos Monkey の方が理にかなっています。Netflixの技術ブログをチェック

2 に答える 2