0

3 つの連続変数と 5 つの名義変数 (各変数に 5 つのカテゴリ) を持つ 1 つの結果変数 (はい/いいえ) を持つデータ ファイル (100 万行) があります。モデルを構築するのにどのタイプの分析が適しているかを知りたかったのです。ロジット、プロビット、ロジスティック回帰を見てきました。分析に役立つ可能性が高い変数を何から始めて分析するかについて、私は混乱しています。

データ ファイル: 性別、地域、年齢、会社、専門分野、職務、診断、ラボ、注文、ステータス

M、西、41、PA、FPC、アシスタント、code18、27、3、はい

M、サウスウェスト、65、CV、FPC、ワーカー、コード18、69、11、なし

M、南、27、DV、IMC、アシスタント、無効、62、13、いいえ

M、サウスウェスト、18、CV、IMC、ワーカー、コード8、6、1、はい

PS: R 言語を使用します。どんな助けでも大歓迎ですありがとう!

4

1 に答える 1

2

3 つを考えると、ほとんどの場合、ロジスティック回帰から分析を開始します。

Logistic と Logit は同じものであることに注意してください。

Logistic と Probit のどちらかを決定する際は、Logistic を選択します。

通常、Probit はより速く結果を返しますが、Logistic は結果の解釈に関して優れた優位性を持っています。

さて、変数に落ち着くために - モデルで使用する変数の数を変えることができます。

model1 <- glm(status ~., data = df, family = binomial(link = 'logit'))

ここで、モデルの要約を確認し、予測変数の重要性を確認します。

model2 <- glm(status ~ gender + region + age + company + speciality + jobrole + diag + labs, data = df, family = binomial(link = 'logit'))

変数の数を減らすと、どの変数が重要であるかを識別できるようになります。

また、この前にデータ クリーニングを実行したことを確認してください。

相関性の高い変数を含めることは避けてください。cor()

于 2016-08-05T04:57:08.100 に答える