classification - データセットをサブサンプリングする方法

Question

svm(サポートベクターマシン) やその他のさまざまな分類アルゴリズムを実装する予定です。しかし、私の列車のデータセットは 10Gb です。どうすればサブサンプリングできますか? これは非常に基本的なレベルの質問ですが、私は初心者です。

助けてくれてありがとう

score 0 · Accepted Answer

それはあなたのデータに依存します。

あなたは基本レベルの質問に取り組んでいるので、最初の最善のアプローチはサンプルサイズを大幅に削減することだと思います。それが完了したら、機能の数を指定されたサイズに減らします。

データセットが十分に小さく単純になったら、目前の問題に適した属性またはサンプルをさらに追加することを検討できます。

お役に立てれば！

2 に答える 2