r - データの上限を記述する関数の計算に関するアドバイス

Question

データセットの散布図があり、データの上限を計算することに興味があります。これが標準的な統計的アプローチであるかどうかはわかりません。そのため、私が検討していたのは、X軸データを小さな範囲に分割し、これらの範囲の最大値を計算してから、これらのポイントを記述する関数を特定することでした。これを行うための関数がすでにRにありますか？

関連する場合は92611ポイントがあります。

代替テキスト

score 10 · Accepted Answer

quantregパッケージで利用可能な分位点回帰を調べたいと思うかもしれません。これが役立つかどうかは、「ウィンドウ」内の絶対最大値が必要かどうかによって異なります。たとえば、95番目または99番目の極端な分位数が受け入れられるかどうかです。分位点回帰に精通していない場合は、モデルの共変量を条件として、期待値または平均応答のモデルに適合する線形回帰を検討してください。中央分位数（0.5）の分位点回帰は、モデルの共変量を条件として、モデルを応答の中央値に適合させます。

これは、私が何を意味するかを示すために、 quantregパッケージを使用した例です。まず、表示するデータと同様のダミーデータを生成します。

set.seed(1)
N <- 5000
DF <- data.frame(Y = rev(sort(rlnorm(N, -0.9))) + rnorm(N),
                 X = seq_len(N))
plot(Y ~ X, data = DF)

次に、モデルを99パーセンタイル（または0.99分位数）に適合させます。

mod <- rq(Y ~ log(X), data = DF, tau = .99)

「適合線」を生成するために、モデルから100個の等間隔の値で予測します。X

pDF <- data.frame(X = seq(1, 5000, length = 100))
pDF <- within(pDF, Y <- predict(mod, newdata = pDF))

フィットしたモデルをプロットに追加します。

lines(Y ~ X, data = pDF, col = "red", lwd = 2)

これはあなたにこれを与えるはずです：

分位点回帰出力

score 3 · Accepted Answer

分位点回帰を使用するためのGavinの2番目の指名です。データは、XとYのそれぞれの対数正規分布でシミュレートされる場合があります。次のように実行すると、2つの独立した（相関が課されていないが、必ずしもcor（x、y）== 0である必要はない）対数正規変量の同時分布のプロットがどのように見えるかを確認できます。

x <- rlnorm(1000, log(300), sdlog=1)
y<- rlnorm(1000, log(7), sdlog=1)
plot(x,y, cex=0.3)

代替テキスト

qqplot（基本プロット関数）を使用して個々の分布を調べることを検討してください。このような分布の裾は驚くべき方法で動作する可能性があることを覚えておいてください。もちろん、アプリケーションが金融や保険にある場合を除いて、値の大部分が極端なものよりも特定の分布にどの程度適合しているかに関心があるはずです。尾の振る舞いに関するモデリングの仮定が不十分であるために、別の世界的な金融危機を望んでいませんか？

qqplot(x, rlnorm(10000, log(300), sdlog=1) )

r - データの上限を記述する関数の計算に関するアドバイス

2 に答える 2

Related

Reference