私はこの奇妙な高次元クラスタリングの問題に陥りました。これを説明するための類推があります。
2^10 人が森に入り、そこに何種類の鳥が生息しているかを知りたいとします。
これらの鳥は、たとえば 128 次元で互いに異なり、すべての次元は 2 進数です。つまり、鳥に大きなくちばしがあるか小さなくちばしがあるか、青い翼があるか、ないか、などです (各鳥の種は 128 ビットで表すことができます)。
私の問題は、男たちが森から降りたとき、彼らの観察 の集計しかないということです:
「私は8羽の鳥を見ました.3羽は青いくちばしを持っていました(5羽はしませんでした)、4羽は青い翼を持っていました(4羽はしませんでした)、1羽は大きなくちばしを持っていました(7羽はしませんでした)」. 彼らは、観測の個々の特徴については報告していませんが、観測の集合についてのみ報告しています。
追加の制約が 2 つあります。
i) すべての種が少なくとも 1 回観察される。ii) 種の数が少ない (~2^5)。
もちろん、それらの集計の集計をコンパイルできます (3000 の観察のうち、357 羽の鳥が大きなくちばしを持っていたなど..)。しかし、クラスターはどうですか?
質問は次のとおりです。
そこに何種類の生物が生息しているかを知るにはどうすればよいでしょうか。
それぞれの種の特徴を知るにはどうすればよいでしょうか。