0

サイズ/ボリューム/物理 (メトリックス、ギガバイト/テラバイト) が要素とそのラベルの数だけに関係しない無限のストレージを想定すると、統計的にパターンは 30 のサブセットですでに出現するはずですが、1000 未満のサブセットでは少なすぎることに同意できますか?テストする必要があり、少なくとも 10000 個の個別のサブセット / 「要素」、「エントリ」 / エンティティが「大きなデータ セット」です。それとももっと大きい?ありがとう

4

1 に答える 1

3

あなたの質問を理解しているかどうかはわかりませんが、ある程度の精度を確保するためにサンプリングする必要があるデータセットの要素の数を尋ねようとしているようです (30 は中心極限定理の魔法の数です)頻繁に遊びに来ます)。

その場合、必要なサンプル サイズは信頼水準と信頼区間によって異なります。95% の信頼水準と 5% の信頼区間が必要な場合 (つまり、サンプルから決定した比率が完全なデータ セットの比率の 5% 以内であることを 95% 信頼したい場合)、最終的にはサンプル サイズは 385 エレメント以下です。生成する信頼水準が高く、信頼区間が小さいほど、必要なサンプル サイズは大きくなります。

ここでは、サンプル サイズを決定する数学に関する優れた説明と、数値を実行するだけの場合 の便利なサンプル サイズ計算機を示します。

于 2009-05-24T09:15:09.657 に答える