0

k-means と除算の 2 つのクラスタリング アルゴリズムを作成しましたが、後で凝集法も追加する予定です。高次元データでそれらがどれほど優れているかを分析する必要があり、そのためにクラスターの中心までの平均/合計距離を計算する必要があります。k-meansの場合、簡単です。重心がありますが、分割/凝集アルゴリズムで中心を見つける方法は? 私がここにいる間: 私は現在、Euclede、Manhattans、および Pearsons の距離を実装していますが、他に使用できる距離測定はありますか? 前もって感謝します!

4

2 に答える 2

1

あなたはこの本を手に入れたいかもしれません:

  • 距離の百科事典、Michel Deza、Elena Deza、590 ページ。

これは、使用できる代替距離関数の多くをカバーしています。

おそらく数百の異なる距離...

ただし、評価方法も検討する必要があります。重心ベースの場合、 k-means偏ります。したがって、この比較はおそらく不公平です。

さらに、人工データを使用する場合は、方法がデータを生成する方法と相関するため、ある方法を別の方法よりも不当に優先しないようにしてください (たとえば、ガウス クラスターを生成する場合、k-means などの方法が優先されます)。

于 2013-04-04T19:58:19.730 に答える
0

私の仕事の目標は、高次元のデータからクラスターを作成する必要があるときに、これらのクラスターを分析することです。それらを評価するのは難しく、結果が完全に公平になる可能性はほとんどないため、1 つのクラスター内のレコード間の平均累積距離と、異なるクラスターの 2 つのレコード間の最小距離を使用します。階層的クラスタリング アルゴリズムでクラスターの中心を見つける方法について - k-means で使用されるのと同じ式で、各反復後に重心を再計算するために使用されます。

于 2013-04-06T10:19:56.103 に答える