1

私は、ゼロ期間の要求 (ワーカー ノードによってすぐに満たされるもの) で >2000rps を達成できる小さなクラスターで一種のロード バランサーを使用しています。しかし、リクエストがゼロ期間でなくなり、1 ミリ秒かかるようになるとすぐに、パフォーマンスがすぐに 10 倍以上低下します。両方向で転送されるデータは同じで、サイズは約 2kb です。200rps の 1 ミリ秒のリクエストは非常に小さな負荷であり、ネットワークは 10 ギガビットであるため、これはクラスターやネットワークのスループットの飽和とは関係ありません。さらに、CPU 負荷は、ロード バランサーとワーカー ノードの両方でわずか 2 ~ 5% です。

これは、OS スケジューラーまたは OS ネットワーク スタックの異常な動作に関連している可能性があるのではないかと考えています (非常に短い対話には、いくつかの特殊なケースの動作があります)。

原因を診断するにはどうすればよいですか? 監視するパフォーマンス カウンターはどれですか? 使用するツールまたは方法論は?

(誰かが私の特定の問題に対する答えを単に知っている場合に備えて、Hyper-Vを介してWindows Server 2008 R2で実行されているMS HPC Server 2008 R2の「WCF Broker」について話している)

4

3 に答える 3

1

これは、HPCサーバーのスケジューリングメカニズムの特性に関係する、完全にネットワークに関係のない問題であることが判明しました。WCFサービス構成ファイルのloadBalancingセクションで構成オプション"serviceRequestPrefetchCount"を0に調整することで、この問題を解決しました。

于 2010-08-16T09:05:12.247 に答える
1

実行できることの1つは、ETWトレースを使用して、WCFジョブの実行中にノードが実行していることを理解することです。HPCサーバーでは、xperfをclusrunして、すべてまたは特定のノードでトレースを収集することがあります。xperf自体を含め、ETWトレースの分析に使用できるツールは多数あります。HPC SOA(WCF)を使用して深刻な作業を行ったことはありませんが、単純なWCFレイトレーサーアプリを作成し、xperfを使用していくつかのノードでプロファイルを作成しました。

于 2010-08-16T00:58:17.830 に答える
0

ある種のロックシステムが設置された共有リソースがいくつかあると思いますか? ロックはボトルネックですか?システムを見ないとわかりません。

従業員のプロファイルを作成する方法はありますか? 特に速いシナリオと遅いシナリオでは、彼らは何に多くの時間を費やしていますか?

于 2010-08-11T18:57:07.327 に答える