1000 個の観測値と 76 個の変数 (そのうち約 20 個はカテゴリ変数) を含むデータセットがあります。このデータ セット全体で LASSO を使用したいと考えています。lars や glmnet を介して LASSO で因子変数を使用しても実際には機能しないことはわかっていますが、変数が多すぎて、数値的に合理的に再コード化するには、変数が取ることができる順序付けられていない値が多すぎます。
この状況でLASSOを使用できますか? どうすればいいですか?予測子の行列を作成すると、次の応答が得られます。
hdy<-as.numeric(housingData2[,75])
hdx<-as.matrix(housingData2[,-75])
model.lasso <- lars(hdx, hdy)
Error in one %*% x : requires numeric/complex matrix/vector arguments
他の方法の方が簡単で適切な場合もありますが、実際には lars や glmnet を使用してこれを行うのが難しいので、可能であればアイデアやフィードバックをいただければ幸いです。
ありがとうございました、