performance - アプリケーションのパフォーマンスを測定するときに平均がそれほど人気があるのはなぜですか

Question

アプリケーションのパフォーマンス（応答時間など）を測定する場合、平均（平均）に出くわすのは非常に簡単です。ab、httprefおよび他の多くのユーティリティが平均と標準偏差を報告しています。しかし、理論的な観点からは、それは私にはあまり意味がありません。そして、その理由があります。

対称分布の場合、平均は母集団モードと期待値に等しいため、平均値は対称分布母集団の記述に適しています。ただし、応答時間は対称的に分散されていません。それらは指数関数のようなものです。この場合、平均は何も教えてくれません。

パーセンタイル値を使用する方が便利です。パーセンタイル値は、応答の何パーセントでどの応答時間を許容できるかを示します。

計算が非常に簡単であるという理由だけで、何かが足りないのでしょうか、それとも人気があるのでしょうか。

score 2 · Accepted Answer

すべての種類のツールは、必ずしも意味のあるものからではなく、ユーザーの期待から機能を取得します。

分布が負ではなく、大きく歪んでいること、およびパーセンタイルがより有益であることは間違いありません。

あるいは、対数正規分布やカイ2乗分布のような分布の方が少し良いでしょう。

score 1 · Accepted Answer

はい、何かが足りません。

記述統計の要点は、多数の数値を説明する（または表す、モデル化する、または...）ためにいくつかの数値を提示することです。それらは、大きなデータセットの理解、データからの情報の抽出、正確な比較が大きく、人間の心の限界に戸惑うデータセットのおおよその比較を支援します。

しかし、単一の記述統計が常にすべての目的に適合するわけではなく、平均を使用する必要がある、または使用する必要がある、または使用すべきであると誰もあなたに指示していません。目的に合わない場合は、別のものを使用してください。

たまたま、書くのはかなり間違っています。それらは指数関数のようなものです。この場合、平均は何も教えてくれません。 レートパラメータを使用した指数分布の場合lambda、平均は単純で1/lambdaあるため、平均は指数分布に関するすべてを示します。

score 0 · Accepted Answer

私は統計の専門家ではありませんが、平均値はシステムのスケーラビリティを測定するのに役立つ値であるため、非常に多く使用されていると思います。

特定のワークロードでシステムがどのようにバヘバする必要があるかを知るために、最初に平均値を考慮する必要があり、それらは予測可能である必要があります。通常、少なくとも最初は外れ値にはあまり関心がありません。

もちろん、システムにボトルネックが発生する瞬間を知るために、最小値とピーク値を調べる必要がありますが、平均値は、私が正しく予測可能な動作を示したように示しています。

performance - アプリケーションのパフォーマンスを測定するときに平均がそれほど人気が​​あるのはなぜですか