1

2 つのデータ セットが与えられており、KNIME を使用してセットのクラスター分析を実行したいと考えています。

クラスタリングが完了したら、2 つの異なるクラスタリング アルゴリズムのパフォーマンス比較を実行したいと考えています。

クラスタリング アルゴリズムのパフォーマンス分析に関して、これは時間 (アルゴリズムの時間の複雑さとデータのクラスタリングの実行にかかった時間など) の尺度になるのでしょうか、それともクラスターの出力の妥当性でしょうか? (または両方)

クラスタリング アルゴリズムのパフォーマンス (またはパフォーマンスの欠如) を特定するために、他の角度から見たものはありますか?

よろしくお願いします。

  • T
4

4 に答える 4

2

利用可能なデータに大きく依存します。

パフォーマンスを測定する一般的な方法は、既存の (「外部」) ラベルに関するものです (ただし、クラスタリングよりも分類の方が意味があります)。これに使用できる約 20 のメジャーがあります。

「内部」品質測定を使用する場合は、アルゴリズムから独立していることを確認してください。たとえば、k-means はそのような尺度を最適化し、この尺度に関して評価すると常に最適になります。

于 2012-03-14T07:23:58.030 に答える
0

利用可能なグラウンド トゥルースがある外部メソッドの簡単なアプローチは、クラスタリング間の距離メトリックを使用することです。グラウンド トゥルースは単にクラスタリングと見なされます。使用する 2 つの適切な手段は、メイラによるバリエーション オブ インフォメーションと、私の謙虚な意見では、メイラによって議論された私自身によるスプリット ジョイン距離です。Mirkin インデックスや Rand インデックスはお勧めしません。これについては、こちらの stackexchange で詳しく説明しています。

これらのメトリクスは 2 つの構成要素に分割でき、それぞれがクラスタリングの 1 つから最大の共通サブクラスタリングまでの距離を表します。両方の部分を検討する価値があります。(一般的なサブクラスタリングに対する) グラウンド トゥルース部分が非常に小さい場合、テストされたクラスタリングがスーパークラスタリングに近いことを意味します。他の部分が小さい場合は、テストされたクラスタリングが共通のサブクラスタリングに近いため、グラウンド トゥルースのサブクラスタリングに近いことを意味します。どちらの場合も、クラスタリングはグラウンド トゥルースと互換性があると言えます。詳細については、上記のリンクを参照してください。

于 2012-06-15T14:22:58.643 に答える
0

クラスタリングの評価方法には 2 つのカテゴリがあり、どちらを選択するかは、グラウンド トゥルースが利用できるかどうかによって異なります。最初のカテゴリは、グラウンド トゥルースの存在を必要とする外部メソッドであり、もう 1 つのカテゴリは内部メソッドです。一般に、外因性メソッドは、グラウンド トゥルースが与えられた場合にクラスタリングにスコアを割り当てようとしますが、内因性メソッドは、クラスターがどれだけうまく分離されているか、クラスターがどれだけコンパクトであるかを調べることによってクラスタリングを評価します。

外部メソッド (利用可能な根拠が必要であることを忘れないでください) の場合、1 つのオプションは、BCubed の精度と再現率のメトリックを使用することです。クラスタリングは教師なし学習手法であるため、事前にクラスターのラベルがわからないという点で、BCubed の予測および再現率メトリックは、従来の精度および再現率とは異なります。このため、BCubed メトリクスは、グラウンド トゥルースに従って、特定のデータセットのクラスタリングですべてのオブジェクトの予測と再現率を評価します。例の精度は、同じクラスター内の他の例がその例と同じカテゴリに属している数を示しています。例の再現率は、同じクラスターに割り当てられた同じカテゴリの例の数を反映しています。最後に、F2 メトリックを使用して、これら 2 つのメトリックを 1 つに結合できます。

ソース:

  1. Jiawei Han、Micheline、Kamber、Jian Pei によるデータ マイニングの概念と手法
  2. http://www.cs.utsa.edu/~qitian/seminar/Spring11/03_11_11/IR2009.pdf
  3. クラスタリングのパフォーマンスを評価した私自身の経験
于 2012-06-15T08:36:01.507 に答える