1

2 つの異なるレポートの数値を比較するアプリケーションがあります。2 つの数値の差異が特定のしきい値を超えると、ユーザーに警告します。本来は10%の閾値を使うつもりだったのですが、カウントAがexの時に気付きました。10,000 10% の分散は高すぎます (つまり、999 の場合は過剰になります) が、カウント A が 10 しかない場合、10% の分散は低すぎます (2-3 / 10 が許容可能な分散であることを意味します)。 .

コーディングする以外に、それを行う方法がわかりません

IF CountA <= 10 THEN AcceptableRate = 20%
If CountA > 10 THEN AcceptableRate = 15%

私がここでやろうとしていることを数学的に説明する方法と、それがどのように実装されるかを知っている人はいますか? これはおそらく、私よりも数学が得意な人にとっては簡単な質問だと思います。

4

4 に答える 4

4

私が正しく理解している場合、類似しているはずの 2 つの異なるデータ セットを比較しようとしており、2 つのデータセット間の違いのレベルを定義したいと考えています。これは、ある種の許容可能なレベルです。

私がとるアプローチは、いくつかの要因に依存すると思います。まず、2 つのデータセットの根底にある分布を知っていますか? たとえば、データが正規分布している場合、各データムが他のセットに存在する確率を見つけることはできないでしょうか?

一方、カイ 2 乗検定を使用して 2 つのデータセットの違いを確認することもできます。

もう 1 つの可能性は、Kolmogorov-Smirnov 検定を使用して、1 つのサンプルが別のサンプルに由来する確率を取得することです。

これらは私の提案ですが、この種のカットオフ値を決定することは常に主観的です. 私が研究中に使用した基準は、ショーヴネの基準でした。これも役立つかもしれません。

于 2013-05-14T17:38:08.390 に答える
0

以前の回答で言及された式に加えて、許容範囲として n のべき乗 (n はいずれかのレポートからの参照番号) を使用することも検討してください。以下は、いくつかの Python コードとその結果であり、n のさまざまなべき乗を示しています。

j=10   
for i in range(6):
    print '{:8} {:8.1f} {:8.1f} {:8.1f} {:8.1f}'.format(j, j**0.33, j**.35, j**.37, j**.39)
    j *= 10

      10      2.1      2.2      2.3      2.5
     100      4.6      5.0      5.5      6.0
    1000      9.8     11.2     12.9     14.8
   10000     20.9     25.1     30.2     36.3
  100000     44.7     56.2     70.8     89.1
 1000000     95.5    125.9    166.0    218.8
于 2013-05-14T18:27:56.867 に答える
0

標準偏差は、あなたが扱っている基本的な不確実な量と同じ単位で測定されるため、分散よりも直感的です。適切なパーセンテージを選択すると、両方の例が正しい方向にプッシュされるため、おそらく標準偏差のいくつかのパーセンテージが適切な尺度になります。

于 2013-05-14T18:56:53.403 に答える