どの測定値について話しているのか正確にはわかりませんが、今のところ、平均スコアのようなものが必要であると仮定しましょう。母集団(317人の候補者)の平均スコアを推定するために調整は必要ありません。サンプルの平均(データを分析した142)を使用してください。
不確実な領域を見つけるには、NIST統計ハンドブックに記載されている式を使用できます。最初に、自分がどれだけ不確実であるかを決定する必要があります。真の母平均が区間内にあるという95%の信頼度が必要であると仮定します。次に、真の母平均の信頼区間は次のようになります。
(サンプル平均)+/- 1.960 *(サンプル標準偏差)/ sqrt(サンプルサイズ)
母集団に比べてサンプルが多いことを認めるために、さらに修正を加えることができます。それらは信頼区間を約1/4だけ引き締めますが、上記の計算によってすでに保守性が低下しているという多くの仮定があります。1つの仮定は、スコアがほぼ正規分布していることです。もう1つの仮定は、サンプルが母集団を代表しているということです。欠落しているデータはすべて、同じプロキシを使用している候補者からのものであるとおっしゃいました。そのプロキシを使用した母集団のサブセットは、他の母集団とは大きく異なる可能性があります。
編集:「ブラウザがクラッシュした」などの属性を持つサンプルの割合について話しているので、状況は少し異なります。比率に信頼区間を使用し、母集団のサイズを掛けて成功数に戻す必要があります。これは、クラッシュしたブラウザの数の推定値が5 * 317/142〜=11であることを意味します。
サンプルが母集団のほぼ半分であるという事実をもう一度無視すると、比率のウィルソン信頼区間を使用できます。計算機をオンラインで利用して、数式を処理できます。計算機と数式からの出力は、母集団の分数の上限と下限です。クラッシュ数の範囲を取得するには、上限と下限に(母集団サイズ-サンプルサイズ)を掛けて、サンプル内のクラッシュ数を加算します。単純に母集団のサイズを掛けて間隔を取得することはできますが、サンプルについてすでに知っていることは無視されます。
上記の手順を使用すると、142のサンプルポイントでの5つのクラッシュに基づいて、317の母集団でのブラウザーのクラッシュの総数に対して7.6から19.0の95%CIが得られます。