5

私は、さまざまなプログラムへの学生の登録を調べる回帰モデルの開発を任されました。これは、登録数がポアソン分布によく従う、非常に優れたクリーンなデータ セットです。モデルを R に当てはめます (GLM と Zero Inflated Poisson の両方を使用します)。結果の残差は妥当に見えました。

ただし、その後、生徒の数を、生徒数/学校人口として計算される「率」に変更するように指示されました (各学校には独自の人口があります)。 . これは、プログラムの「登録率」と見なされます。

この「率」(学生/人口) はもはやポアソンではありませんが、確かに正規でもありません。そのため、適切な分布と、それを表す後続のモデルについて少し迷っています。

対数正規分布はこの比率パラメーターにうまく適合しているように見えますが、0 の値が多いため、実際には適合しません。

この新しいパラメーターの最適な分布形式と、R でモデル化する方法に関する提案はありますか?

ありがとう!

4

1 に答える 1

6

コメントで示唆されているように、ポアソン モデルを保持し、オフセットを使用して実行できます。

glm(response~predictor1+predictor2+predictor3+ ... + offset(log(population),
     family=poisson,data=...)

または、二項 GLM を使用することもできます。

glm(cbind(response,pop_size-response) ~ predictor1 + ... , family=binomial,
        data=...)

また

glm(response/pop_size ~ predictor1 + ... , family=binomial,
        weights=pop_size,
        data=...)

あまり広くは使用されていませんが、後者の形式の方が便利な場合もあります。一般に、Poisson から Binomial に切り替えると、リンク関数が log から logit に変更されることに注意してください。ただし、必要に応じて使用することもできますfamily=binomial(link="log"))

ゼロインフレは、ポアソン+オフセットの組み合わせでモデル化するのが簡単かもしれません(psclZIPへの最も一般的なアプローチであるパッケージがオフセットを処理するかどうかはわかりませんが、そうすると思います)、ゼロよりも一般的に利用可能になります-膨張二項モデル。

ゼロ膨張二項モデルを行うと思いますglmmADMBが、テストしていません。

于 2013-04-16T22:44:25.523 に答える