私は R で分類を行っています。testD と呼ばれるテスト データのデータフレームと、results と呼ばれるデータのデータフレームがあります (これらは正しい分類値です)。
これらのデータフレームは非常に大きく、セット全体でモデルをトレーニングするには時間がかかりすぎるため、約 5,000 のデータ ポイントをランダムに選択してトレーニングしたいと考えています。
いずれかのデータ フレームから 5,000 行をランダムに選択する方法は知っていますが、「testD」から選択した行を正確に知る必要があるため、「結果」のどの 5,000 行と比較するかがわかります。
どんな助けでも大歓迎です!