カオス エンジニアリングの手法は、非常に広く使用されるようになっています。一般的な例の 1 つは、Netflix のChaos Monkeyです。ただし、Chaos Monkey はランダムなターゲットに対してアドホックに実行されることがよくあります。特定のサービスの回復力を強化するために、一般的なCI/CD パイプラインでカオス実験がどのように機能するのか興味があります。
- カオス実験は (通常) 完全に機能する環境を必要とするため、いつ実行するのでしょうか? テストと並行して実行しますか、それともダウンストリームで実行しますか?
- すべてのコミットでカオス実験を実行しますか、それともいくつかのコミットでのみ実行しますか?
- カオス実験を実行できる時間はどれくらいですか? たとえば、60 分間の CPU スパイクは、「フェイル ファスト」アプローチを妨げる可能性があります。
- カオス実験でパイプラインが失敗することはありますか? 「失敗」とはどのようなものでしょうか?