1

n個のデータのデータセットがあり、各データは抽出された特徴のセットで表されます。一般に、クラスタリングアルゴリズムでは、すべての入力データが同じ次元(同じ数の特徴)を持つ必要があります。つまり、入力データXは、それぞれがd個の特徴を持つn個のデータポイントの*d行列です。私の場合、以前にデータからいくつかの特徴を抽出しましたが、各データに対して抽出された特徴の数はおそらく異なる可能性があります(つまり、データポイントに同じ数の特徴がないデータセットXがあります)。データが同じ次元である必要があるいくつかの一般的なクラスタリングアルゴリズムを使用してそれらをクラスタリングするために、それらを適応させる方法はありますか?

ありがとう

4

3 に答える 3

1

実際にはデータを気にしないDBSCANなどのクラスタリングアルゴリズムもあります。このアルゴリズムに必要なのは距離関数だけです。したがって、フィーチャの距離関数を指定できる場合は、DBSCAN(または、イプシロンパラメーターを必要としないDBSCANの拡張であるOPTICS)を使用できます。

したがって、ここでの重要な質問は、機能をどのように比較するかです。これはクラスタリングとはあまり関係がなく、ドメインに大きく依存します。特徴が単語の出現などである場合、コサイン距離が適切な選択です(存在しない特徴には0を使用します)。しかし、たとえば、画像から抽出された一連のSIFTキーポイントがある場合、機能に順序がないため、さまざまな機能を互いに効率的に関連付ける明確な方法はありません(したがって、最初のキーポイントを最初のキーポイントと比較できます)など)ここで考えられるアプローチは、別の-均一な-一連の機能を導出することです。通常、このような状況では、バッグオブワード機能が使用されます。画像の場合、これはビジュアルワードとも呼ばれます。基本的に、最初にサブ機能をクラスター化して、限られた語彙を取得します。次に、元の各オブジェクトにこれらの「単語」で構成される「テキスト」を割り当て、それらにコサイン距離などの距離関数を使用できます。

于 2011-12-18T13:23:46.757 に答える
1

あなたが抱えている問題は、それが「まばらな」データセットであるということのように聞こえます。一般的に2つのオプションがあります。

  1. 多次元尺度構成法を使用して、入力データセットの次元を減らします。たとえば、スパースSVD(例:ランチョスアルゴリズム)またはスパースPCA。次に、高密度の低次元出力に従来のクラスタリングを適用します。

  2. スパースk-meanなどのスパースクラスタリングアルゴリズムを直接適用します。オンラインで十分に調べれば、おそらくこの論文のPDFを見つけることができることに注意してください(scholar.google.comを試してください)。

[問題の明確化後に更新]

この問題では、手書きの単語が連結成分(線)について視覚的に分析されます。コンポーネントごとに、固定数の多次元特徴が抽出されます。単語をクラスター化する必要があります。各単語には、1つ以上の連結成分が含まれている場合があります。

推奨される解決策:

最初に、連結成分を1000(*)個の一意の成分分類に分類します。次に、単語を、それらに含まれる分類されたコンポーネントに対して分類します(上記のまばらな問題)。

*注:選択するコンポーネント分類の正確な数は、MDS分析によって本質的な「直交」分類に削減されるので、十分に高い限り、実際には重要ではありません。

于 2011-12-17T20:36:14.793 に答える
0

ここに2つのオプションがあります。

  1. すべてのデータポイントに価値がある機能に制限してください。
  2. 不足している機能に対して適切なデフォルト値を生成できるかどうかを確認してください。

ただし、可能であれば、すべてのデータポイントをリサンプリングして、すべてのデータポイントがすべての機能の値を持つようにする必要があります。

于 2011-12-17T20:22:34.490 に答える