0

~40 の独立変数を持つかなり大きなデータセットで pandas を使用して多変量回帰を実行しています。ただし、これらの変数の一部については、pandas は係数を計算できますが、標準誤差は計算できません (したがって、t 統計、p 値などは計算できません)。回帰出力の一部を次に示します。

...
 var1      0.0000     0.0001       0.46     0.6488    -0.0002     0.0002
 var2     25.8603        nan        nan        nan        nan        nan
 var3      9.5578        nan        nan        nan        nan        nan
--------------------------------------------------------------------------------
 var4     -4.7974        nan        nan        nan        nan        nan
 var5      2.9619        nan        nan        nan        nan        nan
 var6      1.9343        nan        nan        nan        nan        nan
 var7    -24.8932        nan        nan        nan        nan        nan
 var8      4.7703        nan        nan        nan        nan        nan
--------------------------------------------------------------------------------
 var9    -16.0344        nan        nan        nan        nan        nan
 var10     5.8313        nan        nan        nan        nan        nan
 var11    -3.1322        nan        nan        nan        nan        nan
 var12     5.5747     1.4304       3.90     0.0001     2.7711     8.3784
 var13     4.0470     1.8455       2.19     0.0284     0.4299     7.6641
...

nan を含むすべての var は 2 進変数ですが、標準誤差がある変数のうち、一部は 2 進変数で、その他は通常の連続変数であることに注意してください。

誰もこれを経験したことがありますか?

4

1 に答える 1

0

答えを見つけたと思います:「ナン」問題を抱えたバイナリ変数は、多重共線性につながりました (すべてのデータ ポイントは、そのセット内のダミー変数の 1 つに対して 1 でした)。これらのダミー変数の 1 つを削除すると、問題が解決しました! パンダがまだこのデータを使って物事を計算しようとするとは思わなかったが、そうです!

于 2013-04-17T17:08:50.037 に答える