algorithm - 教師なし分類-特徴ベクトルが取得されます

Question

市販品を分類する必要があります。あなたは価格比較エンジンが何をするか知っています。

特徴ベクトルを取得しました。彼らは最高ではありませんが、かなり良いです。私の最後のステップは、クラスターがいくつあるかを知らずにそれらを分類することです。したがって、k-meansのようなアルゴリズムは、クラスがいくつある必要があるため、機能しません。

したがって、ここでは特徴ベクトルのセットの例を示します。ここでは（例として）順番に並んでいますが、順序に依存しないアルゴリズムが必要です。

#################################################
47 - ddr2;asus;1066;g41;am;p5qpl;775;
48 - g41;p5qpl;asus;am;ddr2;vga;anakart;
49 - intel;anakart;ddr2;1066;p5qpl;asus;am;
50 - p5qpl;ddr2;asus;am;g41;vga;anakart;
51 - ddr2;asus;1066;g41;am;p5qpl;775;
52 - g41;p5qpl;1066;am;ddr2;asus;anakart;
53 - p5qpl;ddr2;1066;am;g41;asus;sata;
54 - g41;p5qpl;1066;am;asus;ddr2;sata;
###################################################
55 - engtx480;asus;384bit;2di;gddr5;vga;16x;
56 - 2di;karti;384bit;asus;engtx480;ekran;pci;
57 - asus;engtx480;2di;vga;gddr5;384bit;16x;
58 - 2di;karti;engtx480;384bit;asus;gddr5;1536mb;
59 - engtx480;asus;384bit;2di;gddr5;vga;16x;
60 - engtx480;asus;384bit;2di;gddr5;vga;16x;
####################################################
61 - ray;blu;ihbs112;siyah;bulk;dvd;sata;
62 - ihbs112;ray;blu;on;lite;yazici;kutusuz;
63 - ihbs112;blu;ray;lite;on;siyah;bulk;
64 - blu;ihbs112;ray;lite;on;siyah;yazici;
65 - liteon;ihbs112;bd;yazma;hizi;12x;max;
66 - ihbs112;ray;blu;on;lite;bulk;dvd;
67 - etau108;dvd;siyah;lite;on;rw;ihbs112;
68 - ihbs112;liteon;bd;yazma;hizi;12x;max;
69 - ihbs112;ray;blu;lite;on;siyah;bulk;
#####################################################

人間のように見える場合、これらの特徴ベクトルを使用するだけで製品を簡単に分類できます。しかし、私はアルゴリズムを介してそれを達成する必要があります。また、事前情報を必要とせず、特徴ベクトルを使用するだけのアルゴリズムでそれを実現する必要があります。

上記の特徴ベクトルセットから、47-54はクラスター、55-60は別のクラスター、61-69は別のクラスターです（各クラスターは実際の製品を意味します）。したがって、アルゴリズムは、これらの種類の特徴ベクトルを使用するだけで、これらを正しく分類する必要があります。

アルゴリズムは、特徴ベクトルの行の順序やクラスの数に依存することはできません。私たちは何も知りません、そして私たちはただ特徴ベクトルを持っています。

この分類問題についてのあなたの提案を待っています。ありがとうございました。

score 2 · Accepted Answer

適応共鳴理論はあなたの質問に対する短い答えです。KMeansとは異なり、クラスターの数を事前に設定する必要はありません。入力は、バイナリ（ART 1アルゴリズム）または連続（ART -2A、ARTMAPなど）のいずれかの特徴ベクトルのセットであり、出力は、クラスター内のドキュメントの分類です。

score 0 · Accepted Answer

対処する必要のある3つの主要な問題を特定できます。

1）提供した例から、すべてのベクトルの次元は7であるようです。そうでない場合は、PCAを使用して、（未知であるが制限された）次元の数を固定サイズに減らすことができます。これにより、大幅な変更を加えることなくクラスタリングアルゴリズムを使用できるようになります。

2）クラスターのサイズがわからないという事実を克服するために、DBSCANを使用できます。最小クラスターサイズと近隣サイズの2つのパラメーターが必要です。

3）クラスタリングアルゴリズムが動作できるステップ1）の次元を持つ表現空間が必要です。このためには、これらのサンプルから特徴ベクトルを構築する方法を考える必要があります。あなたが示した例から、トレーニングベクトルは象徴性の観点から恣意的に埋められていないようです。あなたが言っていることにもかかわらず、ヒューリスティックを使用できるかもしれないように私には思えます。ただし、それが不可能な場合は、機能値として数値表現を選択するだけです。

algorithm - 教師なし分類-特徴ベクトルが取得されます

2 に答える 2

Related

Reference