1

私のプロジェクトでは

  1. x 台のサーバーをクロールします。
  2. 各サーバーのユーザー数は 1 ~ n です。
  3. ユーザーごとに 1 から z 個のアイテムをクロールします。

現在、グラファイトを使用して QOS を監視しています。アイテムのクロールにかかった時間を保存しています。

x.time_taken

このアプローチの問題は、影響を受けるのが 1 人のユーザーだけの場合、QOS に関する誤ったアラートが表示されることです。

次の点に回答/監視するための正しいツール/手法は何ですか:

  1. 最小 k ユーザーが影響を受ける場合にのみアラートを出します。【イベント数ではありません】
  2. 影響を受けたユーザーのリスト。

グラファイトと statsd は、このための正しいツールではないと思います。これらの 2 つの質問に答えるには、どのツールが適しているでしょうか?

4

1 に答える 1