Nagiosは良いです、多分システムテスト(Selenium)を定期的に実行するのは良いことです。
編集:HypericとGroundworkも面白そうです。
おそらく、すべてを圧力テストし続けることができるテストスイートシステムがあります。頭のてっぺんから名前を思い出せないので、誰かが下に名前を挙げてくれるかもしれません。
私がしたい他のこと:
インフラストラクチャの最善のモットーは、常に修正、検出、修復です。それを立ち上げ、その根源に到達し、可能であればそれを治療/予防します。
システムは多くのレベルで存在するため、次の多くのレベルでテストする必要があります。
編集:すべてのエラーまたは警告をメールでケースマネージャーに直接投稿してもらいます。そうすれば、1か所で発生を追跡できます。
1)接続:サーバーおよび外部からインターネット接続を監視します。これをどこかに記録します
2)サーバー:サーバーを固定していないことを確認するために必要なすべてのプロセスを監視します。HPサーバーまたはBIOSレベルから実行できるハードウェア障害通知と同等のものを使用します。通知し、ログに記録します。
3)ソフトウェア:常に実行する必要がある主要なソフトウェアを特定します。パフォーマンスレベルがある場合は設定してから、それらを監視します。Nagiosはこれを支援できるはずです。Windowsでは、もう少し多くなる可能性があります。例外が発生した場合、そこからスクリプトを実行してプロセスを自動的に再起動できるはずです。私の夢のシステムでは、サーバーが許可する必要がある例外、またはSMSでキャンセルしない限り自動的に発生する例外と見なした場合に、SMSを介してサーバーと対話できるようにしています。いつか..
4)リモート電源:リモート電源リセット機能が手元にあることを確認します。Windowsを何かに使用する場合は、毎週の再起動をスケジュールすることをお勧めします。
5)ビジネスロジックテスト:システムのワークフローをテストするスクリプトを定期的に実行します。Seleniumはおそらくこれの一部を達成できますが、結果をログに記録することも好きです。これはこの時点で実行され、これらのファイルにはエラーがあったと言えます。可能であれば、どこでも、スクリプトを介してシステム自体を監視します。
6)バックアップ:設定して忘れることができるバックアップを作成します。インフラストラクチャの任意の部分をどこにでも拡張、移動、または展開できるため、仮想マシンに物事を取り込むことができれば理想的です。死んだサーバーをラップトップに移動し、問題を修正している間、それをvmwareで実行させた例があります。