私のプロジェクトでは
- x 台のサーバーをクロールします。
- 各サーバーのユーザー数は 1 ~ n です。
- ユーザーごとに 1 から z 個のアイテムをクロールします。
現在、グラファイトを使用して QOS を監視しています。アイテムのクロールにかかった時間を保存しています。
x.time_taken
このアプローチの問題は、影響を受けるのが 1 人のユーザーだけの場合、QOS に関する誤ったアラートが表示されることです。
次の点に回答/監視するための正しいツール/手法は何ですか:
- 最小 k ユーザーが影響を受ける場合にのみアラートを出します。【イベント数ではありません】
- 影響を受けたユーザーのリスト。
グラファイトと statsd は、このための正しいツールではないと思います。これらの 2 つの質問に答えるには、どのツールが適しているでしょうか?