2

データセットを使用して、ベータ分布Lahman::Battingのパラメーターを推定しました。ここで、この経験的に導き出されたベータ分布を、推定したヒストグラムにプロットしたいと思います。

library(dplyr)
library(tidyr)
library(Lahman)

career <- Batting %>%
  filter(AB > 0) %>%
  anti_join(Pitching, by = "playerID") %>%
  group_by(playerID) %>%
  summarize(H = sum(H), AB = sum(AB)) %>%
  mutate(average = H / AB)

RBI の分布は次のようにプロットできます。

career %>% 
  filter(AB > 500) %>% 
  ggplot(aes(x = average)) +
  geom_histogram() +
  geom_freqpoly(color = "red")

そして取得します:

ここに画像の説明を入力

私は+ geom_freqpoly取得するために使用できることを知っています:

ここに画像の説明を入力

でもスムーズなベータ版配布が欲しい。次の方法でベータ パラメータを推定できます。

career_filtered <- career %>%
    filter(AB >= 500)

m <- MASS::fitdistr(career_filtered$average, dbeta,
                    start = list(shape1 = 1, shape2 = 10))

alpha0 <- m$estimate[1] # parameter 1
beta0 <- m$estimate[2] # parameter 2

パラメータalpha0beta0があるので、ベータ分布をプロットして次のような結果を得るにはどうすればよいですか。

ここに画像の説明を入力

この質問は、私がここで読んでいる投稿に基づいています。

4

1 に答える 1