machine-learning - 小さなデータセットで GridSearch を使用し、結果を大きなデータセットに適用することは良い考えですか?

Question

TfidVectorizer と OneVsRestClassifier(SGDClassifier) を使用したパイプラインがあります。これは、実行したい gridSearch のパラメーターです。

parameters = {'tfidf-vect__ngram_range': ((1, 1), (1, 3)),
              'tfidf-vect__stop_words': (None,'english'),
              'tfidf-vect__min_df': (1e-3,1e-6),
              'tfidf-vect__max_features': (1e7,1e4),
              'tfidf-vect__norm': ('l1','l2',None),
              'tfidf-vect__use_idf': (True, False),
              'tfidf-vect__sublinear_tf': (True, False),
              'clf__estimator__alpha': (1e-5, 1e-7),
              'clf__estimator__loss':('hinge', 'log', 'modified_huber'),
              'clf__estimator__penalty':(None, 'l2', 'l1','elasticnet'),
              'clf__estimator__class_weight':("auto", None),
              'clf__estimator__warm_start':(True,False),
              'clf__estimator__average':(True,False,4,8,16)
}

問題:パラメーターの最適な組み合わせを知りたいのですが、自分のコンピューターで 100k インスタンスに対してこのような gridSearch を実行できません。

質問:この種の gridSearch の結果は、100,000 インスタンスのデータセットと 10 ～ 20,000 のサンプルのサブセットで (おそらくパラメーターセットが小さい場合) どれくらい似ていますか?

ご存知かもしれませんが、私はテキストの問題のマルチラベル分類を扱っています。

ありがとうございました：）

score 1 · Accepted Answer

はい、それはまともな戦略です。最良の結果が得られるとは限りませんが、それでもそれなりに優れているはずです。ただし、パラメーター検索でより小さなデータセットに過適合しないように注意する必要があります。

machine-learning - 小さなデータセットで GridSearch を使用し、結果を大きなデータセットに適用することは良い考えですか?

1 に答える 1

Related

Reference