2

私は論文にCarrot2ツールを使用しており、このツールでさまざまなアルゴリズムを実行しています。私の質問は、さまざまなアルゴリズムの結果を科学的に比較するにはどうすればよいですか?つまり、アルゴリズム1のクラスタリング結果がアルゴリズム2の結果よりも優れているという証拠が必要です。エントロピーと純度の値が機能する場合、それらをどのように適用できますか?

ありがとう。

4

3 に答える 3

2

2つのアルゴリズムを比較する最良の方法は、実際のデータでのパフォーマンスを示し、特定の場合にうまく機能する理由と機能しない理由を説明することです(たとえば、密なデータや疎なデータ、または可変密度...)。場合によっては、あるアルゴリズムが別のアルゴリズムと比較していくつかの追加の望ましい特性を持っていることを理論的に証明できる場合があります。しかし、それは難しいかもしれません。

また、結果が良好かどうかを判断するために、ドメインの専門家が、クラスターがアプリケーションドメインにとって意味があるかどうかを教えてくれる必要がある場合があります。

つまり、エントロピーや純度などの測定値は興味深い測定値です。しかし、最終的には、データマイニング技術は、特定のドメインに対して意味のある結果を生成する場合にのみ、そのドメインに適しています。

一般的なクラスタリングアルゴリズムを開発している場合は、これらの測定値を使用して、特定の条件下でアルゴリズムが別のアルゴリズムよりも優れたプロパティを持っていることを示し、これらの測定値を使用してそれについて議論することができます。ただし、実際のデータを使用して、場合によってはそれがより適切に機能する理由を説明する必要があります。

于 2012-05-08T00:41:33.883 に答える
1

残念ながら、クラスタリングの結果を比較することは簡単ではありません。特に、重複、階層、および部分空間の結果に関しては。一般的な対策は、厳密なパーティショニングクラスタリングでのみ機能します。そしてそれでも、バイアスは異なり、品質基準は多数存在します。したがって、結果は、一方の測定では良くなり、もう一方の測定では悪くなる可能性があります。

私はELKIユーザーなので、Carrotの詳細はわかりません。クラスタリングを比較するために、さまざまなペアカウントメジャー(適合率、再現率、F1、ジャッカード、ランド、調整済みランド、Fowlkes-Mallows)、エントロピーベースのメジャー(「正規化された相互情報量」)、Bcubedメジャー(適合率、再現率、F1)があります。 )、セットマッチングメジャー(F1、純度および逆純度)、編集距離ベースのメジャー、およびGiniベースのメジャー。これは合計で約20の品質基準です。どちらかが明らかに優れている理由については、まだ良い議論がありません。それらにはすべて長所と短所があります。BCubedは優れていると主張していますが、そうではないのは誰ですか?

https://en.wikipedia.org/wiki/Cluster_analysis#External_evaluation には、これらの測定値の一部の詳細が記載されていますが、どの測定値をいつ使用するかについても示されていません。

さらに、実験では、どのアルゴリズムも他のアルゴリズムより優れていることを証明することはできません。他のパラメータに悪いパラメータを選択した可能性があります。または、不適切な「アルゴリズム2」を使用している可能性があります。何百ものクラスタリングアルゴリズムがあり(ELKIは私が知っているクラスタリングアルゴリズムの最大のコレクションであり、それが私が現在それを使用している理由です!)、理想的にはそれらのすべてよりも優れているはずです。私は現在、さらに別のクラスタリングアルゴリズムを発明することはあまり意味がないと思います。あなたはただ車輪の再発明をしているだけかもしれません、そして誰かがすでにまさにこのクラスタリングアルゴリズム、あるいはもっと優れたものを発明しているかもしれません。

于 2012-05-07T18:01:43.343 に答える
1

他の人が述べたように、教師なしクラスタリングについて話すとき、品質の「最良の」基準がないという理由だけで、「最良の」品質メトリックはありません。小さくてコンパクトなクラスターを好む人(およびアプリケーション)もいれば、大規模で高レベルのクラスターを好む人もいます。階層的な結果を求めるものもあれば、フラットな(パーティション化)結果を求めるものもあります。鮮明な割り当てを好む人もいれば、ファジーメンバーシップ関数を好む人もいます...これは永遠に続く可能性があります。

上記の理由と同様に、そのような比較を実行するための「完璧な」グラウンドトゥルースセットはありません。それはすべて、入力データが何であるか、目的が何であるかなどに依存します。

http://project.carrot2.org/publications.htmlのCarrot2パブリケーションリストを参照してください。これらのパブリケーションの一部には、再利用できる品質メトリックとデータセットが含まれています(上記の私のコメントを思い出してください)。これはおそらく、検索結果のクラスタリングに最も適しています。

Claudio Carpineto、StanislawOsiński、Giovanni Romano、Dawid Weiss:Webクラスタリングエンジンの調査。ACM Computing Surveys(CSUR)、Volume 41、Issue 3(July 2009)、Article No. 17、ISSN:0360-0300

そしてもちろん、興味深い新しいアルゴリズムを思いついた場合は、Carrot2への貢献を歓迎します。

于 2012-05-08T14:01:01.277 に答える