72 個の観測値と 592 個の変数のデータ フレーム (df) と 1 つの因子クラス変数 (合計 593 個の変数、つまり、dim(df) = 72 593) があります。最適な k 値の選択に受信者動作特性 (ROC) を使用して、7 つの変数 (クラス変数を含む) を選択する方法を探しています。これらの 7 つの変数をグラフィカル モデルを使用した分析に使用したいのですが、変数を無作為に選択したくありません。選択が統計的に正当化されることを望みます。
私の結果として見たいのは次のようなものです:
変数 V23、V120、V230、V333、V496、V585、V593 は、ROC の最高値に基づいて選択されました。
つまり、高精度の「最良の」予測変数の分類と選択を実行して、これらの変数をグラフィカル モデリングに使用できるようにしたいと考えています。
キャレット パッケージを使用してみましたが、それを操作して他の分析に使用できる高精度の変数 (列) を選択する方法がわかりません。
みんなありがとう。誰かが私を理解したと確信しています。
ありがとう。
クテックス。