PCA ベースの特徴選択と k-means の組み合わせをお勧めします。
主成分を見つけて、重量順に並べます。そして、階層の各深さでそれらの重みを消費します。
たとえば、4 つの深さのクラスター階層があり、コンポーネントの重みを次のように取得するとします。
W1: 0.32
W2: 0.20
W3: 0.18
W4: 0.09
...
W1000: 0.00
深さのカウント1/N
である深さごとに、上から の重みを消費したいと考えています。N
ここN
のようにし4
ます。0.25
最初のコンポーネントが消費され、次のようになります。
W1: 0.07*
W2: 0.20
W3: 0.18
W4: 0.09
...
W1000: 0.00
最初のコンポーネントの新しいスコアは になり0.32-0.25=0.07
ます。0.25
2 回目の反復では、上部を再び消費します。
W1: 0.00*
W2: 0.02*
W3: 0.18
W4: 0.09
...
W1000: 0.00
3 回目の繰り返しは次のとおりです。
W1: 0.00
W2: 0.00*
W3: 0.00*
W4: 0.04*
...
W1000: 0.00
そして、4 回目の反復では、重み some が までの残りの部分を使用し0.25
ます。
各反復では、重みを消費する機能のみを使用します。たとえば、2 回目の反復で KLT の後に機能の PC1 と PC2 のみを使用します。これは、それらが重みを消費する唯一のコンポーネントであるためです。したがって、反復ごとにクラスター化するコンポーネントは次のようになります。
Iteration 1: PC1
Iteration 2: PC1, PC2
Iteration 3: PC2, PC3, PC4
Iteration 4: PC4, ... PC1000
この目的のために、より少ない量の最終的な重量消費をターゲットにして、1.0
より少ない量の重量で反復することができます。これは、クラスタリングの前に次元削減のためにターゲットの重みを超えるすべてのコンポーネントを除外することと事実上同じです。
最後に、このアプローチに名前があるかどうかはわかりません。教師なし問題に PCA を使用するのは当然のことです。クラスタ ラベルが手元にあるため、最初の反復後に教師付き特徴選択を試すこともできます。