1

ある日、約 10 分間 ISP に障害が発生しました。これは、残念ながら、複数の場所から書かれているホストされた試験中に発生しました.

残念ながら、これにより、進行中の候補者の現在のページのポストバック データが失われました。

サーバーログからイベントの流れを再構築できます。ただし、317 の候補のうち 175 はローカル プロキシを使用していました。つまり、それらはすべて同じ IP から来ているように見えます。残りの 142 (45%) のデータを分析したところ、それらに何が起こったのかについていくつかの適切な数値が得られました。

質問: セット全体で予想される結果を得るために、すべての数値に 317/142 を掛けることはどの程度正しいですか? 私の(不)確実な領域はどこですか?

推測しないでください。統計の授業で寝落ちしなかった人に答えてもらいたい。

編集: 数字で、私は影響を受けた個人の数を参照していました. たとえば、5/142 は、セッション中にブラウザーがクラッシュした証拠を示しました。11/317 でブラウザがクラッシュしたという推定はどの程度正しいですか?

4

1 に答える 1

2

どの測定値について話しているのか正確にはわかりませんが、今のところ、平均スコアのようなものが必要であると仮定しましょう。母集団(317人の候補者)の平均スコアを推定するために調整は必要ありません。サンプルの平均(データを分析した142)を使用してください。

不確実な領域を見つけるには、NIST統計ハンドブックに記載されている式を使用できます。最初に、自分がどれだけ不確実であるかを決定する必要があります。真の母平均が区間内にあるという95%の信頼度が必要であると仮定します。次に、真の母平均の信頼区間は次のようになります。

(サンプル平均)+/- 1.960 *(サンプル標準偏差)/ sqrt(サンプルサイズ)

母集団に比べてサンプルが多いことを認めるために、さらに修正を加えることができます。それらは信頼区間を約1/4だけ引き締めますが、上記の計算によってすでに保守性が低下しているという多くの仮定があります。1つの仮定は、スコアがほぼ正規分布していることです。もう1つの仮定は、サンプルが母集団を代表しているということです。欠落しているデータはすべて、同じプロキシを使用している候補者からのものであるとおっしゃいました。そのプロキシを使用した母集団のサブセットは、他の母集団とは大きく異なる可能性があります。

編集:「ブラウザがクラッシュした」などの属性を持つサンプルの割合について話しているので、状況は少し異なります。比率に信頼区間を使用し、母集団のサイズを掛けて成功数に戻す必要があります。これは、クラッシュしたブラウザの数の推定値が5 * 317/142〜=11であることを意味します。

サンプルが母集団のほぼ半分であるという事実をもう一度無視すると、比率のウィルソン信頼区間を使用できます。計算機をオンラインで利用して、数式を処理できます。計算機と数式からの出力は、母集団の分数の上限と下限です。クラッシュ数の範囲を取得するには、上限と下限に(母集団サイズ-サンプルサイズ)を掛けて、サンプル内のクラッシュ数を加算します。単純に母集団のサイズを掛けて間隔を取得することはできますが、サンプルについてすでに知っていることは無視されます。

上記の手順を使用すると、142のサンプルポイントでの5つのクラッシュに基づいて、317の母集団でのブラウザーのクラッシュの総数に対して7.6から19.0の95%CIが得られます。

于 2008-11-29T08:46:28.540 に答える