モデルで段階的な機能選択を行おうとしていますknn
。FSelector
パッケージとforward.search()
関数 を使用しています。
データセットは、機能を削除する前に、約 40 万行×約 100 列です。
問題は、最高のパフォーマンスを発揮する機能には多くのレベルがないため、モデルが失敗する原因となる多くの同点があることです.
私の質問はこれです:
最もパフォーマンスの高い機能が何であるかがわかっている場合、1 つではなく 2 つの変数で forward.search() を開始する方法はありますか?
つまり、変数が 5 つある場合です。forward.search は、次のような最適なものを検索します。
depVar ~ var1
depVar ~ var2
depVar ~ var3
depVar ~ var4
depVar ~ var5
最適なものが決定されると (つまりvar3
)、アルゴリズムは次のことを行います。
depVar ~ var3 + var1
depVar ~ var3 + var2
depVar ~ var3 + var4
depVar ~ var3 + var5
等々。最もパフォーマンスの高い単一変数がわかっている場合、2 番目のステップにスキップする方法はありますか?
任意の提案をいただければ幸いです。