1

1794 の観測値を持つ 107 の変数で構成されるデータセットがあります。106 の変数のどれが従属変数とロバストに相関しているかを決定するために、エクストリーム バウンド分析を実装したいと考えています。それぞれが異なるモデル仕様を持つ広範囲の回帰です。決定的なモデルには、最も堅牢な変数を選択するつもりです。

Marek Hlavac の ExtremeBounds パッケージを使用しています。次のコード行を実行しようとしています。

free=eba(formula=flg_activacion_0_12~., data=Data1, k=0:106, reg.fun=glm, family=binomial(link='logit'), draws=100)

従属変数

flg_activacion_0_12

はダミーです。そのため、家族の引数で二項リンクを選択します。

reg.fun 引数は、R が OLS 回帰を実行するのではなく、ロジットなどの一般化された線形モデルを実行するためのものです。

k 引数を 0:106 に設定しました。つまり、変数が最大 106 個の変数を含むモデル間でロバストかどうかを判断したいということです。ただし、推定するモデルの総数は膨大になります。1 つの説明変数のみを含む 106 の可能なモデルがあります。2 つの説明変数を含むモデルは 106!/[2!(104!)] 個あります。引数 draws=100 は、モデルの数を 100 に制限します。106 個の変数の組み合わせとして記述できるモデルの膨大なプールからランダムに選択された 100 個のモデルのみを実行します。

引数 draws を使用すると、このタスクが私のコンピューターで可能になると思いますが、次のエラー メッセージが表示されます。

All variables in argument 'focus' must be in the data frame. 

Argument 'k' is too high for the given number of doubtful variables.

私はすでにドキュメントをチェックしましたが、どの変数がフリーで、どの変数がフォーカスで、どの変数が疑わしいかを指定していないため、106 個の変数すべてがフォーカスと見なされます。一部のフォーカス変数がデータフレームにないことが示唆される理由がわかりません。何が間違っているのか、どうすれば意図したことを実行できるのか教えてください。

4

1 に答える 1