EC2 には約 20 台のサーバーがあり、ほとんどが動的に生成されます (スケーリング グループ)。
アプリケーションの稼働時間を監視するソリューションを探しています。
追加のボーナスとして、このソリューションは、関連するサーバーを実際に監視するように拡張することもできるため、時間をさかのぼって、ダウンタイムの直前に何が起こったかなどを簡単に確認できます。
理想的には、ホストされたソリューションを探しており、それに合わせて簡単にスケーリングできる必要があります (私たちからの操作なしで追加/削除されるサーバーを何とか動的に処理する必要があります)。
とにかく、皆さんからのいくつかの推奨事項を期待しています。
背景をちょっと…
現在、カスタムの Nagios セットアップを使用しています。サーバーが完全に動的になったため、基本的に単純な http チェックを実行するようになりました。PagerDuty を使用してページを配信しています。それは問題ありませんが、メンテナンス コストのために、http チェック @ Server Density of Pingdom を使用することもできます。
私は ServerDensity を簡単に調べましたが、有望に見えます。ファイルを AMI にダンプするだけのインストール メカニズムが特に気に入っており、残りはすべて処理してくれます。
特定のソリューションについて深く掘り下げる前に、どのようなオプションがあるかを知りたいです。