r - モデル分析 IN R (ロジスティック回帰)

Question

3 つの連続変数と 5 つの名義変数 (各変数に 5 つのカテゴリ) を持つ 1 つの結果変数 (はい/いいえ) を持つデータファイル (100 万行) があります。モデルを構築するのにどのタイプの分析が適しているかを知りたかったのです。ロジット、プロビット、ロジスティック回帰を見てきました。分析に役立つ可能性が高い変数を何から始めて分析するかについて、私は混乱しています。

データファイル: 性別、地域、年齢、会社、専門分野、職務、診断、ラボ、注文、ステータス

M、西、41、PA、FPC、アシスタント、code18、27、3、はい

M、サウスウェスト、65、CV、FPC、ワーカー、コード18、69、11、なし

M、南、27、DV、IMC、アシスタント、無効、62、13、いいえ

M、サウスウェスト、18、CV、IMC、ワーカー、コード8、6、1、はい

PS: R 言語を使用します。どんな助けでも大歓迎ですありがとう！

score 2 · Accepted Answer

3 つを考えると、ほとんどの場合、ロジスティック回帰から分析を開始します。

Logistic と Logit は同じものであることに注意してください。

Logistic と Probit のどちらかを決定する際は、Logistic を選択します。

通常、Probit はより速く結果を返しますが、Logistic は結果の解釈に関して優れた優位性を持っています。

さて、変数に落ち着くために - モデルで使用する変数の数を変えることができます。

model1 <- glm(status ~., data = df, family = binomial(link = 'logit'))

ここで、モデルの要約を確認し、予測変数の重要性を確認します。

model2 <- glm(status ~ gender + region + age + company + speciality + jobrole + diag + labs, data = df, family = binomial(link = 'logit'))

変数の数を減らすと、どの変数が重要であるかを識別できるようになります。

また、この前にデータクリーニングを実行したことを確認してください。

相関性の高い変数を含めることは避けてください。cor()

r - モデル分析 IN R (ロジスティック回帰)

1 に答える 1

Related

Reference