0

分布が異なる 2 つのデータ セット (a、b) があります。セット b はより多くのデータ ポイントを持ち、より多くのバリエーションを持っています。セット a の分布を最もよく近似する方法で、セット b をサブサンプリングする必要があります。セット b の平均値は大幅に大きくなっていますが、セット 'a' の一部の値も大きく、セット a に残す必要があります。

セット b の下限と上限の範囲をトリミングして同様の平均を取得することもできますが、標準偏差は比較できません。次に考えたのは、サブサンプリングされたセット b の分布がセット a の分布と変わらないケースが見つかるまで、セット b をランダムにサブサンプリングする一連の順列を実行することでした (R 統計の ks.test で評価)。これを確実に実行できるパッケージまたは関数 (または、より適切なもの) があるかどうか疑問に思っていると思います。

データセットの例:

a = c(rnorm(n = 100, 平均 = 0, sd = sqrt(.1)), 4, 7, 10)
b = rnorm(n = 1000, 平均 = 3, sd = sqrt(4))
b = b[どの(b >= min(a))]

範囲(a)
[1] -0.6215744 10.0000000
範囲(b)
[1] -0.5520407 8.7371966

sd(a)
[1] 1.287062
sd(b)
[1] 1.834108

4

0 に答える 0