クラスター化したい 5 つのセットがあるとします。ここで説明されている SimHashing 手法を理解しています。
https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/
たとえば、結果が次の場合、3 つのクラスター ( {A}
、{B,C,D}
および) が生成されます。{E}
A -> h01
B -> h02
C -> h02
D -> h02
E -> h03
同様に、MMDS ブックの第 3 章で説明されている MinHashing 手法:
http://infolab.stanford.edu/~ullman/mmds/ch3.pdf
その結果が次の場合、同じ 3 つのクラスターを生成することもできます。
A -> h01 - h02 - h03
B -> h04 - h05 - h06
|
C -> h04 - h07 - h08
|
D -> h09 - h10 - h08
E -> h11 - h12 - h13
(各セットは、3 つの「バンド」で構成される MH シグネチャに対応し、シグネチャ バンドの少なくとも 1 つが一致する場合、2 つのセットがグループ化されます。バンドが多いほど、一致する可能性が高くなります。)
ただし、これらに関連するいくつかの質問があります。
(1) SHは MHのシングルバンド版と理解できますか?
(2) MH は、クラスターを構築するために Union-Find のようなデータ構造を使用することを必然的に意味しますか?
(3) クラスターは、両方の手法で、実際には「候補ペア」のセットであるという意味で、実際には「クラスター前」であると考えるのは正しいですか?
(4) (3) が真の場合、O(n^2)
「実際の」クラスターにさらに分割するために、各「プレクラスター」内で検索を行う必要があることを意味しますか? (これは、小さくてかなりバランスの取れた事前クラスターが多数ある場合は合理的かもしれませんが、それ以外の場合はそれほど多くありません)