各ドキュメント間のコサイン類似度を使用して、ドキュメントのクラスタリングを行っています。これで問題ありません。ただし、私の問題は、すべてのドキュメントを互いにクラスター化するのではなく、特定のドキュメントのみをクラスター化するという点で少し奇妙です。ここに例があります...
それぞれ 3 つのラベルを持つ 2 つのスプレッドシートがあります。ドキュメント間で互いに類似しているが、ドキュメントの内部ではなく、互いに類似しているラベルをクラスター化したいので、たとえば
Doc1: ラベルがあります: 性別と性別、喫煙年数、現在の年齢
Doc2: ラベルがあります: 性別、現在の年齢、使用時間
ドキュメント内ではなく 2 つのドキュメント間のラベルをクラスター化したいので、次のような類似度マトリックスを作成しました。
d1_l1 d1_l2 d1_l3 d2_l1 d2_l2 d2_l3
d1_l1 1.0000000 NA NA 0.5773503 0.0 0.0000000
d1_l2 NA 1.0000000 NA 0.0000000 0.0 0.3333333
d1_l3 NA NA 1.0 0.0000000 0.5 0.0000000
d2_l1 0.5773503 0.0000000 0.0 1.0000000 NA NA
d2_l2 0.0000000 0.0000000 0.5 NA 1.0 NA
d2_l3 0.0000000 0.3333333 0.0 NA NA 1.0000000
ここで、同じドキュメント内のラベル間のコサイン類似度は NA として設定されます。問題は、agnes やその他の階層的クラスタリング手法が NA 値を受け入れないことです。それで、私は何をすべきですか?私はこれについて間違った方法で考えていますか?