データセットを使用して、ベータ分布Lahman::Batting
のパラメーターを推定しました。ここで、この経験的に導き出されたベータ分布を、推定したヒストグラムにプロットしたいと思います。
library(dplyr)
library(tidyr)
library(Lahman)
career <- Batting %>%
filter(AB > 0) %>%
anti_join(Pitching, by = "playerID") %>%
group_by(playerID) %>%
summarize(H = sum(H), AB = sum(AB)) %>%
mutate(average = H / AB)
RBI の分布は次のようにプロットできます。
career %>%
filter(AB > 500) %>%
ggplot(aes(x = average)) +
geom_histogram() +
geom_freqpoly(color = "red")
そして取得します:
私は+ geom_freqpoly
取得するために使用できることを知っています:
でもスムーズなベータ版配布が欲しい。次の方法でベータ パラメータを推定できます。
career_filtered <- career %>%
filter(AB >= 500)
m <- MASS::fitdistr(career_filtered$average, dbeta,
start = list(shape1 = 1, shape2 = 10))
alpha0 <- m$estimate[1] # parameter 1
beta0 <- m$estimate[2] # parameter 2
パラメータalpha0
とbeta0
があるので、ベータ分布をプロットして次のような結果を得るにはどうすればよいですか。
この質問は、私がここで読んでいる投稿に基づいています。