r - 特定の分布を近似するためにデータセットをサブサンプリングする R パッケージまたは関数はありますか?

質問する 2020-08-11T19:21:11.293

53 次

分布が異なる 2 つのデータセット (a、b) があります。セット b はより多くのデータポイントを持ち、より多くのバリエーションを持っています。セット a の分布を最もよく近似する方法で、セット b をサブサンプリングする必要があります。セット b の平均値は大幅に大きくなっていますが、セット 'a' の一部の値も大きく、セット a に残す必要があります。

セット b の下限と上限の範囲をトリミングして同様の平均を取得することもできますが、標準偏差は比較できません。次に考えたのは、サブサンプリングされたセット b の分布がセット a の分布と変わらないケースが見つかるまで、セット b をランダムにサブサンプリングする一連の順列を実行することでした (R 統計の ks.test で評価)。これを確実に実行できるパッケージまたは関数 (または、より適切なもの) があるかどうか疑問に思っていると思います。

データセットの例:

a = c(rnorm(n = 100, 平均 = 0, sd = sqrt(.1)), 4, 7, 10)
b = rnorm(n = 1000, 平均 = 3, sd = sqrt(4))
b = b[どの(b >= min(a))]

範囲(a)
[1] -0.6215744 10.0000000
範囲(b)
[1] -0.5520407 8.7371966

sd(a)
[1] 1.287062
sd(b)
[1] 1.834108

r - 特定の分布を近似するためにデータセットをサブサンプリングする R パッケージまたは関数はありますか?

0 に答える 0

Related

Reference