41

問題:多項ロジスティック マルチレベル モデルのセットを推定する必要がありますが、適切な R パッケージが見つかりません。そのようなモデルを推定するのに最適な R パッケージは何ですか? STATA 13 は最近、この機能をマルチレベルの混合効果モデルに追加したため、そのようなモデルを推定する技術が利用できるようです。

詳細:多くの研究課題では、結果変数がカテゴリ変数である多項ロジスティック回帰モデルの推定が必要です。たとえば、生物学者は、どの種類の樹木 (松、カエデ、オークなど) が酸性雨の影響を最も受けるかを調べることに関心を持つかもしれません。市場調査員は、顧客の年齢とターゲット、セーフウェイ、またはウォルマートでの買い物の頻度との間に関係があるかどうかに関心があるかもしれません。これらのケースでは、結果変数がカテゴリ (順序付けされていない) であり、多項ロジスティック回帰が推奨される推定方法であるという共通点があります。私の場合、人間の移動のタイプの違いを調査しています。結果変数 (mig) は、0 = 移動なし、1 = 内部移動、2 = 国際移動にコード化されています。これが私のデータセットの簡略化されたバージョンです:

migDat=data.frame(hhID=1:21,mig=rep(0:2,times=7),age=ceiling(runif(21,15,90)),stateID=rep(letters[1:3],each=7),pollution=rep(c("high","low","moderate"),each=7),stringsAsFactors=F)

   hhID mig age stateID pollution
1     1   0  47       a      high
2     2   1  53       a      high
3     3   2  17       a      high
4     4   0  73       a      high
5     5   1  24       a      high
6     6   2  80       a      high
7     7   0  18       a      high
8     8   1  33       b       low
9     9   2  90       b       low
10   10   0  49       b       low
11   11   1  42       b       low
12   12   2  44       b       low
13   13   0  82       b       low
14   14   1  70       b       low
15   15   2  71       c  moderate
16   16   0  18       c  moderate
17   17   1  18       c  moderate
18   18   2  39       c  moderate
19   19   0  35       c  moderate
20   20   1  74       c  moderate
21   21   2  86       c  moderate

私の目標は、年齢 (独立変数) が (1) 国内で移住するかしないか、(2) 国際的に移住するかしないか、(3) 国内で移住するか国際的に移住するかのオッズに対する影響を推定することです。さらに複雑なのは、私のデータがさまざまな集計レベルで機能することです (たとえば、汚染は州レベルで機能します)。また、特定の種類の運動に着手する可能性に対する大気汚染 (汚染) の影響を予測することにも関心があります。

不格好な解決策:各モデルのデータ セットを 2 つの移行タイプのみに減らすことで、個別のロジスティック回帰モデルのセットを推定できます (たとえば、モデル 1: mig=0 および mig=1 とコード化されたケースのみ、モデル 2: mig=0 と mig=1 とコード化されたケースのみ)。 mig=2; モデル 3: mig=1 および mig=2 とコード化されたケースのみ)。このような単純なマルチレベル ロジスティック回帰モデルは lme4 で推定できますが、省略されたケースの影響を適切に説明できないため、このアプローチはあまり理想的ではありません。2 番目の解決策は、R2MLwiN パッケージを使用して、R を介して MLWiN で多項ロジスティック マルチレベル モデルを実行することです。しかし、MLWiN はオープン ソースではなく、生成されたオブジェクトは使いにくいため、このオプションは避けたいと思います。包括的なインターネット検索に基づいて、そのようなモデルに対する需要があるようですが、私は良い R パッケージを認識していません。したがって、そのようなモデルを実行した専門家が推奨事項を提供し、複数のパッケージがある場合は、いくつかの利点/欠点を示すことができれば素晴らしいことです. このような情報は、複数の R ユーザーにとって非常に役立つリソースになると確信しています。ありがとう!!

ベスト、ラファエル

4

7 に答える 7

17

An older question, but I think a viable option has recently emerged is brms, which uses the Bayesian Stan program to actually run the model For example, if you want to run a multinomial logistic regression on the iris data:

b1 <- brm (Species ~ Petal.Length + Petal.Width + Sepal.Length + Sepal.Width,
           data=iris, family="categorical",
           prior=c(set_prior ("normal (0, 8)")))

And to get an ordinal regression -- not appropriate for iris, of course -- you'd switch the family="categorical" to family="acat" (or cratio or sratio, depending on the type of ordinal regression you want) and make sure that the dependent variable is ordered.

Clarification per Raphael's comment: This brm call compiles your formula and arguments into Stan code. Stan compiles it into C++ and uses your system's C++ compiler -- which is required. On a Mac, for example, you may need to install the free Developer Tools to get C++. Not sure about Windows. Linux should have C++ installed by default.)

Clarification per Qaswed's comment: brms easily handles multilevel models as well using the R formula (1 | groupvar) to add a group (random) intercept for a group, (1 + foo | groupvar) to add a random intercept and slope, etc.

于 2016-06-18T01:17:03.460 に答える
2

この手法が「標準」および「同等」であると説明されていることに当惑していますが、実用的な解決策になる可能性は十分にあります。(Allison と Dobson & Barnett の参考文献を調べたほうがいいと思います)。単純な多項式のケース (クラスターがない、反復測定など) の場合、Begg と Gray (1984) は、多くの場合、本格的な多項式ロジットの近似として (良いものではありますが)、参照カテゴリに対して k-1 二項ロジットを使用することを提案しています。単一の参照カテゴリを使用すると効率がいくらか低下しますが、単一の高頻度ベースライン カテゴリを参照として使用する場合はわずかです。Agresti (2002: p. 274) は、ベースライン カテゴリが 5 つのカテゴリの例で 219 のケースの 70% 以上を構成する場合でも、標準誤差のわずかな増加がある例を提供します。

大したことではないかもしれませんが、ランダム性の2番目のレイヤーを追加して近似がどのように改善されるかはわかりません。

参考文献
Agresti, A. (2002)。カテゴリーデータ分析。ニュージャージー州ホーボーケン: ワイリー。

ベッグ、CB、およびグレイ、R. (1984)。個別化された回帰を使用した多項ロジスティック回帰パラメーターの計算。バイオメトリカ、71(1)、11–18。

于 2014-11-23T23:40:31.900 に答える
1

私は同じ問題に取り組んでおり、このメーリングリスト、これらの素敵なスライド、または Agresti (2013: 353-356) で説明されているように、多項ロジスティック モデルに相当するポアソン (対数線形/カウント) に頼るような解決策を見つけた可能性ありますglmer(... family=poisson)したがって、パッケージの関数をlme4データの集計で使用できるはずです。

参照:
Agresti, A. (2013) カテゴリカル データ分析。ニュージャージー州ホーボーケン:ワイリー。

于 2015-06-11T09:36:44.023 に答える
1

パッケージ「mlogit」を使用することをお勧めします

于 2014-05-17T16:29:52.820 に答える
0

これが実装です(私自身のものではありません)。私はこのコードから作業するだけです。さらに、このようにして、ボンネットの下で何が起こっているかを本当に知ることができます.

http://www.nhsilbert.net/docs/rcode/multilevel_multinomial_logistic_regression.R

于 2014-01-13T06:27:01.120 に答える