これは宿題の問題であり、私はそれを理解するのにいくつかの困難に直面しています。宿題の質問は
Cluster the following bitsequences using hierarchical clustering. If d(:,:) defines the
distace between two bitsequences a and b, d(a,b) = Hamming-Distance(a,b) . If C1 and C2 are
two clusters, the distance between C1 and C2 is d(C1,C2) = 1/|C1||C2| Summation(a belongs C1, b belongs C2) d(a,b).
Show the cluster hierarchchy with all the intermediate steps.
1 10001011
2 11010111
3 00101010
4 00011110
5 10101110
6 11100001
私は、最初はそれらすべてをクラスターと見なしてから、最も近いものをマージし始める必要があるという本を読みました。新しいクラスターが形成されます。ここで、質問で述べたように、両方のクラスターの各要素間の距離を平均して、この新しいクラスターと他のクラスター間の距離を計算することにより、この新しく形成されたクラスターに最も近いクラスターを見つける必要があります。
私の解決策:すべてのペア間のハミング距離を見つけ、C3とC5(ハミング距離は2)の1つが最も少ないものを選択します。これで、これを新しいクラスターにマージできます。
私の懸念は、ここでマージすることの正確な意味は何ですか?どうすればいいのですか?または、単にそれらをそのままにして、新しいクラスターという名前を付けますか?
また、新しいクラスターの各要素と他のクラスターとの間の平均距離を見つけるにはどうすればよいですか?
また、平均を計算するには、与えられた式は|C1|で割ると言います および|C2|。つまり、ここで要素の数で割る必要があるということですか(1つのグループあたり8で、マージされるクラスターを掛けたものですか?)
どんな助けでも大歓迎です。ありがとうございました。