python - クロス検証用のカスタムパイプラインの使用 scikit-learn

Question

分類器のパラメーターを決定するために GridSearchCV を使用したいと思います。パイプラインを使用することは良い選択肢のようです。

このアプリケーションは、Bag-of-Word 機能を使用した画像分類用になりますが、問題は、トレーニングサンプルとテストサンプルのどちらを使用するかによって、異なる論理パイプラインが存在することです。

トレーニングセットごとにKMeansを実行して、テストに使用される語彙を生成する必要がありますが、テストデータに対しては KMeans プロセスは実行されません。

パイプラインの動作のこの違いをどのように指定できるかわかりません。

score 3 · Accepted Answer

ボキャブラリロジックを使用するには、おそらくクラスから派生させKMeans、次のメソッドをオーバーライドする必要があります。

fit_transform列車データでのみ呼び出されます
transformテストデータで呼び出されます

おそらく、クラスの派生が常に最良の選択肢であるとは限りません。また、組み込み KMeans モデルへの呼び出しをラップし、最初の段階でクラスが期待する // API を提供する独自のトランスフォーマークラスを作成することもできますfit。fit_transformtransformPipeline

python - クロス検証用のカスタム パイプラインの使用 scikit-learn

1 に答える 1

Related

Reference

python - クロス検証用のカスタムパイプラインの使用 scikit-learn