10分ごとにサーバーにチェックインする数百のネットワークデバイスがあります。各デバイスには時計が組み込まれており、サーバーにチェックインするたびに秒数をカウントし、経過秒数を報告します。したがって、サンプルデータセットは次のようになります。
CheckinTime Runtime
2010-01-01 02:15:00.000 101500
2010-01-01 02:25:00.000 102100
2010-01-01 02:35:00.000 102700
等
デバイスが再起動した場合、サーバーにチェックインすると、ランタイムは0と報告されます。
私が判断しようとしているのは、デバイスの「ヘルス」に関するある種の定量化可能なメトリックです。
デバイスが過去に何度も再起動したが、過去xx日間に再起動しなかった場合、再起動を繰り返した過去xx日間を除いて稼働時間が長いデバイスと比較して、正常であると見なされます。また、30日間稼働していて再起動したばかりのデバイスは、過去xx日間、24時間ごとに継続的に再起動したデバイスと比較して、「不良」と見なすべきではありません。
さまざまな指標を使用して、ヘルスを計算する複数の方法を試しました。1.平均再起動回数2. max(uptime)3. avg(uptime)4.過去24時間の再起動回数5.での再起動回数過去3日間6.過去7日間の再起動回数7.過去30日間の再起動回数
個々のメトリックは、デバイスの状態の1つの側面のみを考慮しますが、他のデバイスまたは現在の状態と比較した全体的な状態は考慮しません。
どんなアイデアでも大歓迎です。