を使用していくつかのテキスト ドキュメントをクラスター化しようとしていますscikit-learn
。DBSCAN と MeanShift の両方を試しており、使用しているデータの種類 (ニュース記事) に最適なbandwidth
ハイパーパラメーター (MeanShift とDBSCAN など) を特定したいと考えています。eps
事前にラベル付けされたクラスターで構成されるテスト データがいくつかあります。を使用しようとしてきましscikit-learn
たGridSearchCV
が、テストデータを分割する必要があるため、この場合に適用する方法 (または適用できるかどうか) がわかりませんが、データセット全体で評価を実行し、結果は事前にラベル付けされたデータになります。
推定器のラベルを真のラベルと比較するスコアリング関数を指定しようとしましたが、データのすべてではなくサンプルのみがクラスター化されているため、もちろん機能しません。
ここで適切なアプローチは何ですか?