私は、ゼロ期間の要求 (ワーカー ノードによってすぐに満たされるもの) で >2000rps を達成できる小さなクラスターで一種のロード バランサーを使用しています。しかし、リクエストがゼロ期間でなくなり、1 ミリ秒かかるようになるとすぐに、パフォーマンスがすぐに 10 倍以上低下します。両方向で転送されるデータは同じで、サイズは約 2kb です。200rps の 1 ミリ秒のリクエストは非常に小さな負荷であり、ネットワークは 10 ギガビットであるため、これはクラスターやネットワークのスループットの飽和とは関係ありません。さらに、CPU 負荷は、ロード バランサーとワーカー ノードの両方でわずか 2 ~ 5% です。
これは、OS スケジューラーまたは OS ネットワーク スタックの異常な動作に関連している可能性があるのではないかと考えています (非常に短い対話には、いくつかの特殊なケースの動作があります)。
原因を診断するにはどうすればよいですか? 監視するパフォーマンス カウンターはどれですか? 使用するツールまたは方法論は?
(誰かが私の特定の問題に対する答えを単に知っている場合に備えて、Hyper-Vを介してWindows Server 2008 R2で実行されているMS HPC Server 2008 R2の「WCF Broker」について話している)