AWS CloudWatch Logs に関する興味深いシナリオがあります。現在、log4net を使用しており、CloudWatch Logs エージェントを使用してすべてのログを CloudWatch Logs に送り込んでいます。基本的に [ERROR] エントリをスキャンするメトリックが CloudWatch にあり、アラームが発生すると、開発者通知のためにそれらを別のサービスに渡します (しきい値 >= 1、期間 - 1 分)。これらすべてがうまく機能しています。
ここで、特定のエラーを別の方法で処理したいと考えています。たとえば、例外タイプに基づいて、N 分間に X 回の発生が発生した場合にのみアラームをトリガーしたいと考えています。この場合、この条件のメトリックを作成し、それをアラームに割り当てます。問題は、この質問の最初の部分で説明した一般的なエラー メトリックが、個々のエラーの発生を追跡していることです。だから今、私は複数の通知を受け取っています。エラーごとに 1 つと、X 回の発生後に 1 つ。
一般的なエラー メトリックを無効にすることはできますが、未処理の例外を追跡する機能が失われます。考えられるすべての例外のメトリックが必要です。何か不足していますか?これを処理する最良の方法は何ですか?