data-mining - 観測の集約からの高次元クラスタリング

Question

私はこの奇妙な高次元クラスタリングの問題に陥りました。これを説明するための類推があります。

2^10 人が森に入り、そこに何種類の鳥が生息しているかを知りたいとします。

これらの鳥は、たとえば 128 次元で互いに異なり、すべての次元は 2 進数です。つまり、鳥に大きなくちばしがあるか小さなくちばしがあるか、青い翼があるか、ないか、などです (各鳥の種は 128 ビットで表すことができます)。

私の問題は、男たちが森から降りたとき、彼らの観察 の集計しかないということです:

「私は8羽の鳥を見ました.3羽は青いくちばしを持っていました（5羽はしませんでした）、4羽は青い翼を持っていました（4羽はしませんでした）、1羽は大きなくちばしを持っていました（7羽はしませんでした）」. 彼らは、観測の個々の特徴については報告していませんが、観測の集合についてのみ報告しています。

追加の制約が 2 つあります。

i) すべての種が少なくとも 1 回観察される。ii) 種の数が少ない (~2^5)。

もちろん、それらの集計の集計をコンパイルできます (3000 の観察のうち、357 羽の鳥が大きなくちばしを持っていたなど..)。しかし、クラスターはどうですか？

質問は次のとおりです。

そこに何種類の生物が生息しているかを知るにはどうすればよいでしょうか。
それぞれの種の特徴を知るにはどうすればよいでしょうか。

score 2 · Accepted Answer

人による一連の鳥の総計観測の場合x、行列の積によって近似できますDz。ここDで、は列が個々の鳥の特性を表す行列であり、zは各鳥の数のベクトルです。

観察される鳥の数が少ないと仮定すると、これはの大きさに対する制約として機能しますz。

この問題は、疎な辞書の学習問題と非常によく似ています。

スパース辞書学習 (および関連する問題) について説明し、それを解決するためのソフトウェアを提供するリンクがいくつかあります: http://spams-devel.gforge.inria.fr/およびhttp://www.ux.uis.no /~カールスク/dle/index.html

score 2 · Accepted Answer

であるため2^128 = 340282366920938463463374607431768211456、有効な結論を引き出すには、かなり大きなサンプルサイズが必要になります。観察されたすべての鳥は簡単にユニークである可能性があります。

data-mining - 観測の集約からの高次元クラスタリング

2 に答える 2

Related

Reference