K-Means++ を使用した初期シードを使用して、テキスト クラスタリングに K-Means アルゴリズムを使用しています。
ストップワード辞書の変更や max_no_of_random_iterations の増加などの変更を加えて、アルゴリズムをより効率的にしようとしています。
異なる結果が得られます。それらを比較するにはどうすればよいですか?ここでは混同行列の考え方を適用できませんでした。出力は、何らかの値またはタグを取得するドキュメントの形式ではありません。ドキュメントはセットに移動します。重要なのは、相対的な「適切なクラスタリング」またはセットです。
では、この出力セットのパフォーマンスをマークするための標準的な方法はありますか?
混同行列が答えの場合、その方法を説明してください。
ありがとう。