windows - クラスタソフトウェアの異常な動作の診断

Question

私は、ゼロ期間の要求 (ワーカーノードによってすぐに満たされるもの) で >2000rps を達成できる小さなクラスターで一種のロードバランサーを使用しています。しかし、リクエストがゼロ期間でなくなり、1 ミリ秒かかるようになるとすぐに、パフォーマンスがすぐに 10 倍以上低下します。両方向で転送されるデータは同じで、サイズは約 2kb です。200rps の 1 ミリ秒のリクエストは非常に小さな負荷であり、ネットワークは 10 ギガビットであるため、これはクラスターやネットワークのスループットの飽和とは関係ありません。さらに、CPU 負荷は、ロードバランサーとワーカーノードの両方でわずか 2 ～ 5% です。

これは、OS スケジューラーまたは OS ネットワークスタックの異常な動作に関連している可能性があるのではないかと考えています (非常に短い対話には、いくつかの特殊なケースの動作があります)。

原因を診断するにはどうすればよいですか? 監視するパフォーマンスカウンターはどれですか? 使用するツールまたは方法論は?

（誰かが私の特定の問題に対する答えを単に知っている場合に備えて、Hyper-Vを介してWindows Server 2008 R2で実行されているMS HPC Server 2008 R2の「WCF Broker」について話している）

score 1 · Accepted Answer

これは、HPCサーバーのスケジューリングメカニズムの特性に関係する、完全にネットワークに関係のない問題であることが判明しました。WCFサービス構成ファイルのloadBalancingセクションで構成オプション"serviceRequestPrefetchCount"を0に調整することで、この問題を解決しました。

score 1 · Accepted Answer

実行できることの1つは、ETWトレースを使用して、WCFジョブの実行中にノードが実行していることを理解することです。HPCサーバーでは、xperfをclusrunして、すべてまたは特定のノードでトレースを収集することがあります。xperf自体を含め、ETWトレースの分析に使用できるツールは多数あります。HPC SOA（WCF）を使用して深刻な作業を行ったことはありませんが、単純なWCFレイトレーサーアプリを作成し、xperfを使用していくつかのノードでプロファイルを作成しました。

score 0 · Accepted Answer

ある種のロックシステムが設置された共有リソースがいくつかあると思いますか? ロックはボトルネックですか？システムを見ないとわかりません。

従業員のプロファイルを作成する方法はありますか? 特に速いシナリオと遅いシナリオでは、彼らは何に多くの時間を費やしていますか?

windows - クラスタ ソフトウェアの異常な動作の診断

3 に答える 3

Related

Reference

windows - クラスタソフトウェアの異常な動作の診断