4

大きな配列内のデータ項目間の関係を調べたい。多次元ベクトルで表されるすべてのデータ項目。まず、クラスタ化を使用することにしました。クラスター (データ ベクトルのグループ) 間の階層関係を見つけることに興味があります。ベクトル間の距離を計算できます。したがって、最初のステップで、最小限のスパニング ツリーを見つけています。その後、スパニング ツリーのリンクに従ってデータ ベクトルをグループ化する必要があります。しかし、このステップで私は邪魔されます.異なるベクトルを階層クラスターに結合する方法は? 私はヒューリスティックを使用しています: 2 つのベクトルがリンクされていて、それらの間の距離が非常に小さい場合、つまり、それらが同じクラスターにあることを意味します2 つの wector がリンクされているが、それらの間の距離がしきい値よりも大きい場合 - これは、それらが共通のルート クラスター を持つ異なるクラスターにあることを意味します

しかし、おそらくより良い解決策がありますか?

ありがとう

PS みんなありがとう!

実際、k-means と CLOPE のいくつかのバリエーションを使用しようとしましたが、良い結果が得られませんでした。

これで、データセットのクラスターが実際には複雑な構造を持っていることがわかりました (n 球体よりもはるかに複雑です)。

それが、階層的クラスタ化を使用したい理由です。また、クラスターは n 次元の連結(3d または 2d チェーンなど) のように見えると思います。そのため、私はシングルリンク戦略を使用しています。しかし、私は邪魔されています-異なるクラスターを互いに結合する方法(どの状況で、共通のルートクラスターを作成する必要があり、どの状況ですべてのサブクラスターを1つのクラスターに結合する必要がありますか? )。私はそのような単純な戦略を使用しています:

  • クラスター (またはベクトル) が互いに近すぎる場合 - それらのコンテンツを 1 つのクラスターに結合します (しきい値によって調整されます)。
  • クラスター (またはベクトル) が互いに離れすぎている場合 - ルート クラスターを作成し、その中に入れます。

しかし、この戦略を使用すると、非常に大きなクラスター ツリーが得られます。私は満足のいくしきい値を見つけようとしています。しかし、クラスター ツリーを生成するためのより良い戦略があるのではないでしょうか?

ここに簡単な写真があります、私の質問を説明します:

ここに画像の説明を入力

4

2 に答える 2

4

この分野では多くの作業が行われてきました。通常のアドバイスは、特に特別な理由がない限り、K-means クラスタリングから始めることですが、K-means は(通常はとにかく) 階層的クラスタリングを行いませ。最初のパスを実行してクラスターを作成し、次に別のパスを実行して、それらの各クラスターの重心をポイントとして使用し、必要な数の高レベル クラスターが得られるまで続けることで、階層的な K-means を実行できます)。

ただし、他にもかなりの数のクラスタリング モデルがあり、次のような相対的な長所と短所をカバーするかなりの数の論文があります。

  1. ペアワイズ クラスタリングとグラフィカル モデル
  2. ペアワイズ クラスタリングを超えて
  3. 並列ペアワイズ クラスタリング
  4. 貪欲な高速ペアワイズ距離クラスタリング。アルゴリズムと、テーマの発見におけるその使用。大規模なデータ セットの構造。
  5. ペアワイズ クラスタリング アルゴリズム
  6. 階層的凝集クラスタリング

少しグーグルすると、さらに多くの情報が表示されます。クラスタリングに取り組んでいたときの私の研究ディレクトリを振り返ってみると、何十もの論文があり、私の記憶では、私が調べたものの保管していなかったものはもっとたくさんあり、まだ多くの論文を手に入れることができなかった.実際に見るチャンス。

于 2011-07-11T04:31:52.033 に答える
2

クラスタリング アルゴリズムの動物園全体があります。それらの中で、最小スパニング ツリー、別名単一リンケージ クラスタリングには、 http://www.cs.uwaterloo.ca/~mackerma/Taxonomy.pdfなどで指摘されているように、いくつかの優れた理論的特性があります。特に、最小スパニング ツリーを使用して、しきい値の長さよりも長いすべてのリンクを削除すると、結果として得られるポイントのクラスターへのグループ化は、そのサイズのグループ化に対して残りのリンクの最小の合計長を持つ必要があります。最小全域木を生成します。

ただし、最小全域木があなたの目的に最適であるという保証はありませんので、クラスタリングのアルゴリズムから実際に必要なものを書き留めて、それに基づいて方法を選択するか、さまざまな方法を試す必要があると思います。データのクラスタリング アルゴリズムを調べて、どれが実際に最適かを確認します。

于 2011-07-11T05:40:25.790 に答える