0

Rapidminer でさまざまなパフォーマンス オペレータを使用して、さまざまなクラスタリング アルゴリズムのパフォーマンスをチェックする必要があります。そのために、次のことを知りたいです。

  1. クラスター数のインデックス値は、クラスター カウント パフォーマンス オペレーターの出力である何を示していますか?
  2. クラスター距離と平均内の平均の小さい値と大きい値は何ですか。重心距離内で、良いクラスタリングと悪いクラスタリングの観点から意味しますか?
  3. また、さまざまなクラスタリング アルゴリズムについて、Dunn インデックス、Jaccard インデックス、Fowlkes–Mallows などの他のインデックス値も確認したいと考えています。しかし、rapidminer にはこのための演算子がありません。そのために何をすべきか。Rの経験はありません。
4

1 に答える 1

0

Rapid-Iフォーラムでの回答の一部をコピーしました

クラスター数インデックスはクラスターの数です - 無意味なことを言うかもしれませんが、DBSCAN と一緒に使用すると、非常に興味深いことがありますhttp://rapidminernotes.blogspot.co.uk/2010/12/counting-clusters.html

クラスター内の平均距離と重心距離を解釈するのは困難です。このコンテキストで検索する必要があるのは、「エルボー基準」です。クラスターの数が変化するにつれて、有効性測定値がどのように変化するかに注意し、測定値の自然な進行が構造を支配するポイントを示す「ひじ」を探します。

R には多くの有効性測定値があり、RapidMiner から R プロセスをいつでも呼び出すことができるため、時間を費やす価値があります。これにより、何が起こっているのかを簡単に理解できます。

于 2013-07-18T23:03:47.197 に答える