4

私は、特徴空間 (1000 以上の次元) でいくつか (<50) の高次元ポイントを取り込み、標準の k クラスタリングを使用して再帰的に階層クラスタリングを実行するプログラムに取り組んでいます。

私の問題は、任意の 1 つの k クラスタリング パスで、高次元表現のさまざまな部分が冗長になることです。この問題は、特徴抽出、選択、または重み付けの傘下にあることを知っています。

一般に、特定の特徴抽出/選択/重み付けアルゴリズムを選択する際に考慮すべきことは何ですか? 具体的には、私の状況でデータをクラスタリングするための最良の方法はどのアルゴリズムでしょうか?

4

2 に答える 2

3

この論文をチェックしてください:

Witten DM and R Tibshirani (2010) クラスタリングにおける特徴選択のフレームワーク。Journal of the American Statistical Association 105(490): 713-726。

また、Friedman による関連論文 COSA も参照してください。両者は、これらの問題について深く議論しています。

于 2011-07-31T12:25:39.197 に答える
1

PCA ベースの特徴選択と k-means の組み合わせをお勧めします。

主成分を見つけて、重量順に並べます。そして、階層の各深さでそれらの重みを消費します。

たとえば、4 つの深さのクラスター階層があり、コンポーネントの重みを次のように取得するとします。

W1: 0.32
W2: 0.20
W3: 0.18
W4: 0.09
...
W1000: 0.00

深さのカウント1/Nである深さごとに、上から の重みを消費したいと考えています。NここNのようにし4ます。0.25最初のコンポーネントが消費され、次のようになります。

W1: 0.07*
W2: 0.20
W3: 0.18
W4: 0.09
...
W1000: 0.00

最初のコンポーネントの新しいスコアは になり0.32-0.25=0.07ます。0.252 回目の反復では、上部を再び消費します。

W1: 0.00*
W2: 0.02*
W3: 0.18
W4: 0.09
...
W1000: 0.00

3 回目の繰り返しは次のとおりです。

W1: 0.00
W2: 0.00*
W3: 0.00*
W4: 0.04*
...
W1000: 0.00

そして、4 回目の反復では、重み some が までの残りの部分を使用し0.25ます。

各反復では、重みを消費する機能のみを使用します。たとえば、2 回目の反復で KLT の後に機能の PC1 と PC2 のみを使用します。これは、それらが重みを消費する唯一のコンポーネントであるためです。したがって、反復ごとにクラスター化するコンポーネントは次のようになります。

Iteration 1: PC1
Iteration 2: PC1, PC2
Iteration 3: PC2, PC3, PC4
Iteration 4: PC4, ... PC1000

この目的のために、より少ない量の最終的な重量消費をターゲットにして、1.0より少ない量の重量で反復することができます。これは、クラスタリングの前に次元削減のためにターゲットの重みを超えるすべてのコンポーネントを除外することと事実上同じです。

最後に、このアプローチに名前があるかどうかはわかりません。教師なし問題に PCA を使用するのは当然のことです。クラスタ ラベルが手元にあるため、最初の反復後に教師付き特徴選択を試すこともできます。

于 2011-07-17T22:11:32.997 に答える