2

私は R で分類を行っています。testD と呼ばれるテスト データのデータフレームと、results と呼ばれるデータのデータフレームがあります (これらは正しい分類値です)。

これらのデータフレームは非常に大きく、セット全体でモデルをトレーニングするには時間がかかりすぎるため、約 5,000 のデータ ポイントをランダムに選択してトレーニングしたいと考えています。

いずれかのデータ フレームから 5,000 行をランダムに選択する方法は知っていますが、「testD」から選択した行を正確に知る必要があるため、「結果」のどの 5,000 行と比較するかがわかります。

どんな助けでも大歓迎です!

4

1 に答える 1

9

これは次の方法で実行できます。

indices = sample(NROW(testD), 5000)
testD.sample = testD[indices, ]
results.sample = results[indices, ]
于 2013-04-25T00:25:19.893 に答える