0

ESS データセットを使用していますが、SAS Enterprise Guide の欠損値の問題をどのように処理すればよいかわかりません。私たちの従属変数は「主観的な幸福」であり、大量の制御変数を含めることを目指しています。したがって、多くの欠損値を含むデータセットがある状況になります。

「リストごとの削除」は使いたくありません。代わりに、回答者の回答に応じて、「無回答」、「該当なし」、「拒否」、「わからない」など、さまざまな方法でさまざまな欠落を扱いたいと考えています。たとえば、該当しないものをペアごとに削除する予定ですが、質問によっては、他の回答の平均値などを使用したい場合があります (回答者の回答が MCAR、MAR、 NMAR)。

主な質問は次のとおりです。

  • 現在、欠落している変数はデータ セット内でさまざまな方法でマークされています (99、77、999、88 など)。SAS Enterprise Guide に進む前に、これらの値を Excel で置き換える必要がありますか? はいの場合 - それらは異なる方法で扱われることになっているため、どのように交換するのが最善ですか?
  • さまざまな欠落をさまざまな方法で処理するように SAS Enterprise Guide に指示するにはどうすればよいでしょうか?
  • ダミー変数を使用して収入などの拒否をマークする場合、これらを最終的な回帰にどのように含めますか?

私たちはこれについて読もうとしましたが、少し混乱しているので、助けていただければ幸いです:)

4

1 に答える 1

1

技術的な注意として、SAS は特別な欠損値を提供しています: .a .b .c など (大文字と小文字は区別されません)。SAS の数値を置き換えます。たとえば、99 =.a 77 = .b ディシジョン ツリーでは、これらを個別の値として処理できます。

欠落している観測の情報を回帰モデルに保持するには、何らかのトレードオフを行う必要があります (問題に対して最も害の少ない解決策を見つけます)。

  • 古典的な解決策の 1 つは、ダミー変数を作成し、欠損値を平均値で置き換えることです。ダミーと元の変数の両方をモデルに含めます。考えられる問題: 係数が偏っている、多重共線性がある、カテゴリ/変数が多すぎる。

  • 別のアプローチは、変数をカテゴリに BIN することです。値 (十分位数など) だけで行うと、情報が失われる可能性があります。理論的にそれを行うと、確証バイアスに苦しむ可能性があります.

  • より高度なアプローチは、独立変数の情報値 ( http://support.sas.com/resources/papers/proceedings13/095-2013.pdf ) を計算することです。これにより、欠損値を含むすべての値を置き換えます。当然のことながら、これは再び偏見や情報の損失につながります。しかし、少なくとも有用な/役に立たない欠損値を特定するための良いステップかもしれません.

于 2016-03-24T13:33:59.687 に答える