3

私はRを使用して、私が持っているいくつかのデータに対してポアソン回帰を実行しようとしています。データの現在の構造は次のとおりです。

データは、3つの職業に基づいて階層化されています。データには4つのレベルの収入があります。各階層内では、収入のレベルごとに

  1. 発生した労働災害の数、および
  2. 観察された総人月。

セットアップの例を次に示します。括弧内の数字は観察された総人月数であり、括弧なしの数字は労働災害の数です。

私の質問は、このデータをどのように設定し、労働災害の発生に対する所得水準の影響についてポアソン回帰を実行するのかということです。職業を調整して収入だけの効果を調べたいのですが、出発点として、ポアソン回帰問題として設定する方法がまったくわかりません。怪我の数を観察の月数で割るようなことを考えましたが、それは整数以外の値を与えるので、それは正しいことではないと思います。

繰り返しになりますが、予測因子:所得水準。応答変数:労働災害。

ところで、もしそれが理にかなっているなら、括弧番号を分けてそれらを彼ら自身の列に入れることは非常に簡単でしょう。

これを設定する方法についての提案を本当にいただければ幸いです。他の統計家も同様の構造のデータを扱っており、洞察を得たいと思うかもしれません。本当にありがとう!

4

1 に答える 1

4

@thelatemail は、これが stats.stackexchange.com により適していると考える点で正しいかもしれませんが、ここにいくつかの R コードがあります。そのデータはワイド フォーマットであり、ロング フォーマットに再構築する必要があります。(そして、合計の列を含めたくないでしょう。最初の 4 つの列を長い形式に変換した後、因子クラス変数として「職業」と「レベル」、数値として事故「件数」と曝露「月」を持つ列、この呼び出しを に使用できますglm

fit <- glm( counts ~ level + occup + offset(log(months)), data=dfrm, family="poisson")

オフセットは、ポアソン族のデフォルトのリンク関数によって作成されたログに記録されたカウントと一致するように log() する必要があります。

(私たちがそのデータ入力タスクをやり直すことを本当に期待することはできませんよね?)

于 2012-12-04T00:08:47.880 に答える