0

大規模なソーシャル ネットワーク データセットに対して何らかのクラスタリング手法を使用したいと考えています。問題は、クラスタリング手法をどのように評価するかです。はい、いくつかの外部、内部、および相対クラスター検証方法を使用できます。合成データに基づくクラスター検証の外部検証方法として、正規化相互情報量 (NMI) を使用しました。クラスタリング方法を確認するために、同じ数のノードと各クラスタ内のいくつかの強く接続されたリンクとクラスタ間の弱いリンクを持つ 5 つのクラスターを生成することにより、いくつかの合成データセットを生成しました。次に、この合成データセットのスペクトル クラスタリングとモジュール性に基づくコミュニティ検出方法を分析しました。実世界のデータセットに最適な NMI でクラスタリングを使用し、アルゴリズムのエラー (コスト関数) をチェックしたところ、結果は良好でした。コスト関数のテスト方法は適切ですか? または、実際の単語クラスターのクラスターも再度検証する必要がありますか?

ありがとう。

4

1 に答える 1

1

複数のメジャーを試してください。

多数のクラスター検証手段があり、どれが問題に最も適しているかを予測するのは困難です。それらの違いはまだよくわかっていないので、複数に相談するのが最善です。

また、正規化された尺度を使用しない場合、ベースラインが非常に高くなる可能性があることに注意してください。そのため、測定値は「結果 A は結果 C よりも結果 B に似ている」と言うのに最も役立ちますが、品質の絶対的な測定値と見なすべきではありません。それらは類似性の相対的な尺度です。

于 2013-08-19T20:35:23.967 に答える