9

使いたいのですが、始めるのに良い場所だcorrelation clusteringと思います。R

データをR、大きなスパースベクトルのセットとして、または事前に計算された非類似度行列を含むテーブルとして提示できます。

私の質問は次のとおりです。

  • これを使用するwithに変換する既存のR関数はありますか?hierarchical clusteragnescorrelation clustering
  • (確かに単純な)correlation clustering関数を手動で実装する必要がありますか?そうであれば、どのようにそれをうまく機能させることができagnesますか?
4

4 に答える 4

8

私は確かにこの主題についてほとんど知りませんが、あなたをある方向に向けるだけです:

  • クラスターパッケージを見たことがありますか?非常に優れたドキュメントがあります。特に、いくつかの提案についてはhelp(agnes)を参照してください。 Martin Maechler(Rコアチームのメンバー)がパッケージを作成し、以前にStack Overflowのディスカッションに貢献したことがあるので、ここで回答を提供してくれることを願っています。
  • hclust()関数はstatsパッケージの一部です。実際、hclust()とagnes()をマージする計画があると思います。
  • また、Bioconductorプロジェクトのこのページが役立つ場合があります。
  • それ以外の場合は、CRANクラスタリング自然言語処理、または機械学習ビューで他のパッケージを見ることができます。
于 2009-09-24T02:21:34.083 に答える
7

標準的なアプローチは、、、cor()およびhclust()を含むアプローチplot.hclust()です。すばらしいgplotsパッケージのheatmap.2を強くお勧めします。

于 2009-09-24T07:58:00.830 に答える
2

非類似度行列を使用して、クラスターパッケージのagnes関数を使用するのは簡単です。「diss」引数をTRUEに設定するだけです。

Rの外側の非類似度行列を簡単に計算できる場合は、それが道のりかもしれません。それ以外の場合はcor、Rの関数を使用して、類似度行列を生成できます(1から減算することで非類似度行列を取得できます)。

于 2009-11-03T23:15:23.427 に答える
1

http://www.rseek.org/にアクセスしてagnesアルゴリズムを入力したところ、CRANのCLUSTERパッケージに関数AGNESの次の関数の詳細が含まれていることがわかりました。

詳細

agnesについては、Kaufman and Rousseeuw(1990)の第5章で詳しく説明されています。hclustなどの他の凝集クラスタリング手法と比較して、agnesには次の特徴があります。(a)検出されたクラスタリング構造の量を測定する凝集係数(agnes.objectを参照)を生成します。(b)通常のツリーとは別に、新しいグラフィック表示であるバナーも提供します(plot.agnesを参照)。

agnes-algorithmは、クラスタリングの階層を構築します。最初は、各観測値はそれ自体が小さなクラスターです。クラスターは、すべての観測値を含む1つの大きなクラスターのみが残るまでマージされます。各段階で、最も近い2つのクラスターが組み合わされて、1つの大きなクラスターが形成されます。

method = "average"の場合、2つのクラスター間の距離は、一方のクラスターのポイントともう一方のクラスターのポイントの間の非類似度の平均です。method = "single"では、最初のクラスターのポイントと2番目のクラスターのポイントの間の最小の非類似度を使用します(最近傍法)。method = "complete"の場合、最初のクラスター内のポイントと2番目のクラスター内のポイントの間の最大の非類似度を使用します(最も近い隣接メソッド)。

クラスタリングは非常に大きなトピックであり、何らかの形式を実装するR用のパッケージが多数あります。属性と共変量の両方がある場合、クラスタリングと順序付けを組み合わせると、より多くの洞察が得られる場合があります。

于 2009-09-24T14:36:44.773 に答える