2

従属変数が確率である数十万の測定値があり、ロジスティック回帰を使用したいと思います。ただし、私が持っている共変量はすべてカテゴリ型であり、さらに悪いことに、すべてネストされています。これは、特定の測定値に「都市-フェニックス」がある場合、明らかに「州-アリゾナ」と「国-米国」があることを意味します。私には4つのそのような要因があります-最も細かいものには約20kレベルがありますが、必要に応じてそれがなくてもできると思います。また、ネストされていないカテゴリの共変量もいくつかあります(4つ程度で、それぞれ3つの異なるレベルがあります)。私が最も興味を持っているのは予測です。ある都市での新しい観測を踏まえて、関連する確率/従属変数を知りたいと思います。私は関連する推論機構にあまり興味がありません-標準偏差、など-少なくとも今のところ。ずさんな余裕があるといいなと思っています。ただし、計算コストの高いメソッドが必要な場合を除いて、その情報が必要です。これを攻撃する方法について誰かアドバイスはありますか?混合効果を調べましたが、それが私が探しているものかどうかはわかりません。

4

2 に答える 2

2

これは特に R よりもモデル設計の問題だと思います。そのため、最初に質問のコンテキストに対処し、次に適切な R パッケージに対処したいと思います。

従属変数が確率の場合、たとえば $y\in[0,1]$ の場合、ロジスティック回帰は適切なデータではありません。特に、サンプルから確率を予測することに関心がある場合はそうです。ロジスティックは、従属変数がゼロから 1 に反転する確率に対する独立変数の寄与をモデル化する予定です。変数は連続的で切り捨てられているため、別の仕様が必要です。

混合効果についてのあなたの後者の直感は良いものだと思います。観測がネストされているため、つまり、US <-> AZ <-> Phoenixマルチレベル モデル、またはこの場合は階層線形モデルが、データの最適な仕様である可能性があります。このタイプのモデリングに最適な R パッケージはmultilevelandであり、R と nlme の両方のマルチレベル モデルnlmeの優れた紹介がここで入手できます。26 ページから始まる、マルチレベル モデリングのデータ操作の説明に特に関心があるかもしれません。

于 2010-04-17T23:15:46.100 に答える
0

Elastic Net のようなペナルティ付き回帰を調べることをお勧めします。Elastic Net はテキスト マイニングで使用され、各列は 1 つの単語の存在または非存在を表し、おそらく数十万の変数があり、あなたの問題に似ています。R から始めるには、glmnetパッケージとそれに付随する JSS ペーパー ( http://www.jstatsoft.org/v33/i01/ ) が適しています。

于 2010-04-18T14:00:20.390 に答える