Rでknnを使用して(いくつかのパッケージ(knnflex
、class
)を使用)、8つの変数に基づいてデフォルトの確率を予測しようとしています。データセットは 8 列の約 100k 行ですが、私のマシンは 10k 行のサンプルに問題があるようです。データセット > 50 行 (つまり) で knn を実行するための提案はありiris
ますか?
編集:
明確にするために、いくつかの問題があります。
1)class
およびknnflex
パッケージの例は少し不明確であり、予測したい変数とモデルのトレーニングに使用したいデータを与える randomForest パッケージに似た実装があるかどうか興味がありました:
RF <- randomForest(x, y, ntree, type,...)
次に、モデルを使用して、テスト データ セットを使用してデータを予測します。
pred <- predict(RF, testData)
knn
2)モデルを構築するためにトレーニングとテストデータが必要な理由がよくわかりません。私が知る限り、パッケージはマトリックス ~ を作成しnrows(trainingData)^2
ます。これは、予測データのサイズの上限でもあるようです。5000 行を使用してモデルを作成しました (それ以上では # メモリ割り当てエラーが発生しました) が、5000 行を超えるテスト セットを予測できませんでした。したがって、次のいずれかが必要です。
a)トレーニングセットで5000行以上を使用する方法を見つける
また
b) 完全な 100k 行でモデルを使用する方法を見つけます。