java - ストレス下のマシンによる散発的な動作

Question

私たちはいくつかの Java ストレスランを行っています (ネットワーク IO を含む)。最初はすべて問題なく、システムは非常に高速に応答します (テストでの平均遅延は 2 ミリ秒)。しかし、数時間後に同じテストをやり直すと、パフォーマンスが低下することがわかります (20 ～ 60 ミリ秒)。同じ Jar ファイル、同じ JVM、およびストレスが実行されている同じ LAN です。この動作の理由がわかりません。

LAN は 1GBPS であり、ストレス要件のために、すべてを使用しているとは限りません。

だから私のQN：

LAN 内のいくつかのスイッチが原因でしょうか?
しばらくするとマシンの速度が低下しますか (マシンは再起動されます.. ストレスが発生する前に、約 6 か月前にさかのぼります。それらは RHEL5、XEON 64 ビットクアッドコアです)
このような問題をデバッグする一般的な方法は何ですか?

何か助けてください。

-- ラビ

score 0 · Accepted Answer

いくつかの質問...

管理下にある環境はどれくらいですか? また、実行ごとに一貫性を確保するための対策を講じていますか? たとえば、ネットワークを他のシステムと共有していますか? 使用しているマシンはストレステストだけに使用されていますか?

私がこれを見る方法は、あなたのマシンとコードが何をしようとしているのかについての詳細を収集し始めることです. つまり、perfmon (windows) sar (unix) を使用して OS とハードウェアが何をしているかを調べ、プロファイラーを接続してコードが同じことをしていることを確認し、コードの観点からボトルネックが発生している場所を特定するのに役立ちます。 .

それほど詳しくはありませんが、始めるのに役立つことを願っています。

score 0 · Accepted Answer

一般的な方法は「すべてを測定する」です。これは、特に次のことを意味する場合があります。

すべてのサーバーの時刻が同じであることを確認します (ntp などを使用します)。
リクエストの生成にかかった時間を測定します (リクエストジェネレーターにバグがある場合はどうなりますか?)。
リクエストがいつクライアントマシンを離れたか、または少なくとも I/O の実行にかかった時間を測定します。多くのリクエストに必要な平均時間を知るだけで十分な場合があります。
リクエストがいつ到着したかを測定します。
応答を生成するのにかかった時間を測定します。
応答を送信するのにかかった時間を測定します。

これは（あなたが信じている）クリティカルチェーンであるため、おそらく5番目の要素から始めることができます. ただし、できる限りログを記録することをお勧めします。自分で言ったことによると、さまざまな結果が得られるまでに数日かかります。

コードを変更したくない場合は、介入せずにデータを盗聴できるケースを探します (たとえば、web.xml でサーブレットフィルターを定義します)。

java - ストレス下のマシンによる散発的な動作

2 に答える 2

Related

Reference