2

分類器のパラメーターを決定するために GridSearchCV を使用したいと思います。パイプラインを使用することは良い選択肢のようです。

このアプリケーションは、Bag-of-Word 機能を使用した画像分類用になりますが、問題は、トレーニング サンプルとテスト サンプルのどちらを使用するかによって、異なる論理パイプラインが存在することです。

トレーニング セットごとにKMeansを実行して、テストに使用される語彙を生成する必要がありますが、テスト データに対しては KMeans プロセスは実行されません。

パイプラインの動作のこの違いをどのように指定できるかわかりません。

4

1 に答える 1

3

ボキャブラリ ロジックを使用するには、おそらくクラスから派生させKMeans、次のメソッドをオーバーライドする必要があります。

  • fit_transform列車データでのみ呼び出されます

  • transformテストデータで呼び出されます

おそらく、クラスの派生が常に最良の選択肢であるとは限りません。また、組み込み KMeans モデルへの呼び出しをラップし、最初の段階でクラスが期待する // API を提供する独自のトランスフォーマー クラスを作成することもできますfitfit_transformtransformPipeline

于 2012-10-24T20:53:42.947 に答える