2

R コマンダーでクラスタリングを目的として、S_Dbw および SD 有効性インデックスで構成される clv パッケージを実行しました。(http://cran.r-project.org/web/packages/clv/index.html)

S_Dbw インデックスを使用して、DBSCAN、K-Means、Kohonen アルゴリズムからのクラスタリング結果を評価しました。しかし、これら 3 つのアルゴリズムすべてで、S_Dbw は "Inf" です。

「無限」の意味ですか?なぜ「Inf」と対峙したのか。クラスタリングの結果に問題はありますか?

一般的に、S_Dbw インデックスの結果が "Inf" になるのはいつですか?

4

2 に答える 2

4

このようなインデックスを使用して異なるアルゴリズムを比較する場合は注意してください。

その理由は、インデックス自体がほとんどアルゴリズムだからです。1 つの特定のクラスタリングが、各インデックスに対して必ず「最適」になります。インデックスと実際のクラスタリング アルゴリズムの主な違いは、インデックスが「最適な」ソリューションを見つける方法を教えてくれないことです。

いくつかの例: k-means は、クラスター メンバーからクラスターの中心までの距離を最小化します。シングルリンク階層クラスタリングは、パーティション間の最適な最小距離を持つパーティションを見つけます。DBSCAN は、すべての密度接続ポイントが同じパーティションにあるデータセットのパーティションを見つけます。そのため、DBSCAN が最適です (適切な手段を使用する場合)。

真剣に。あるアルゴリズムが特定の尺度で別のアルゴリズムよりも高いスコアを示しているからといって、そのアルゴリズムがより適切に機能しているとは限りません。この方法でわかるのは、特定のアルゴリズムが特定の測定値とより (相関) 関係があるということだけです。概念レベルでの、メジャーとアルゴリズムの間の一種の相関関係と考えてください。

同じアルゴリズムの異なる結果を比較するためのメジャーの使用は異なります。その場合、明らかに、あるアルゴリズムがそれ自体よりもメリットがあるはずはありません。パラメータに関しては、同様の効果がまだある可能性があります。たとえば、k 平均のクラスター内距離は、kを増やすと明らかに低下するはずです。

実際、測定値の多くは、DBSCAN の結果では明確に定義されていません。DBSCANにはノイズポイントの概念があるため、インデックスには認識されていません

測定値が「真実」または「正しい」ことを示していると思い込まないでください。そしてさらに少ない、何が役に立つか、または新しいか. クラスター分析を使用して、特定のメジャーの数学的最適値を見つけるのではなく、データについて何か新しく有用なことを学ぶ必要があるためです。これはおそらく小節数ではありません。

インデックスに戻ります。それらは通常、k-means を中心に完全に設計されています。S_Dbw をざっと見てみると、ひとつの「クラスター」がひとつになった瞬間という印象がありますオブジェクト (DBSCAN のノイズ オブジェクトなど) の場合、値は無限大になります。つまり、未定義です。そのインデックスの作成者は、このコーナー ケースを考慮せず、そのような状況が発生しないおもちゃのデータ セットでのみ使用したようです。R の実装では、元のインデックスから流用せずに、それをさらに別のインデックスに変更することなく、これを修正することはできません。ノイズ オブジェクトとシングルトンの処理は簡単ではありません。何らかの形で失敗しないインデックスはまだ見たことがありません。通常、「すべてのオブジェクトがノイズである」などのソリューションは完璧なスコアを出すか、各ノイズ オブジェクトを最も近いものにすることですべてのクラスタリングを自明に改善できます。非シングルトン クラスター。アルゴリズムが「このオブジェクトはどのオブジェクトにも属していません」と言うことができるようにしたい場合cluster」の場合、適切なインデックスがわかりません。

于 2012-11-01T21:10:09.437 に答える
1

IEEE 浮動小数点標準では、 と をそれぞれ正の無限大と負の無限大として定義Inf-Infています。結果が大きすぎて、指定されたビット数で表現できないことを意味します。

于 2012-11-01T13:07:45.833 に答える