1

K-Means++ を使用した初期シードを使用して、テキスト クラスタリングに K-Means アルゴリズムを使用しています。

ストップワード辞書の変更や max_no_of_random_iterations の増加などの変更を加えて、アルゴリズムをより効率的にしようとしています。

異なる結果が得られます。それらを比較するにはどうすればよいですか?ここでは混同行列の考え方を適用できませんでした。出力は、何らかの値またはタグを取得するドキュメントの形式ではありません。ドキュメントはセットに移動します。重要なのは、相対的な「適切なクラスタリング」またはセットです。

では、この出力セットのパフォーマンスをマークするための標準的な方法はありますか?

混同行列が答えの場合、その方法を説明してください。

ありがとう。

4

1 に答える 1

0

クラスターの品質を測定する方法を事前に決定できます。たとえば、空のクラスターの数や、 平方和内などの統計を数えます。

この論文は言う

「...クラスターの有効性に対する3つの異なるアプローチが可能です。最初のアプローチは、クラスター化されたデータセット内の事前定義された構造の存在を調査する外部基準に依存しています。2番目のアプローチは、内部基準を利用し、クラスター化の結果は、説明する量によって評価されます。近接行列などのデータセット. 内部基準と外部基準に基づくアプローチは統計テストを利用し, その欠点は計算コストが高い. 3番目のアプローチは相対的な基準を利用し, 特定の仮定と定義済みの入力パラメータ値が必要です"

クラスタリングは教師なしであるため、難しいことを求めています。遺伝的アルゴリズムを使用して人々がどのようにクラスター化するかを調査し、彼らが使用するフィットネス基準を確認することをお勧めします.

于 2013-07-25T09:13:11.850 に答える