0

各ドキュメント間のコサイン類似度を使用して、ドキュメントのクラスタリングを行っています。これで問題ありません。ただし、私の問題は、すべてのドキュメントを互いにクラスター化するのではなく、特定のドキュメントのみをクラスター化するという点で少し奇妙です。ここに例があります...

それぞれ 3 つのラベルを持つ 2 つのスプレッドシートがあります。ドキュメント間で互いに類似しているが、ドキュメントの内部ではなく、互いに類似しているラベルをクラスター化したいので、たとえば

  • Doc1: ラベルがあります: 性別と性別、喫煙年数、現在の年齢

  • Doc2: ラベルがあります: 性別、現在の年齢、使用時間

ドキュメント内ではなく 2 つのドキュメント間のラベルをクラスター化したいので、次のような類似度マトリックスを作成しました。

          d1_l1         d1_l2     d1_l3     d2_l1      d2_l2     d2_l3
    d1_l1 1.0000000        NA        NA     0.5773503   0.0    0.0000000
    d1_l2        NA 1.0000000        NA     0.0000000   0.0    0.3333333
    d1_l3        NA        NA        1.0    0.0000000   0.5    0.0000000
    d2_l1 0.5773503 0.0000000        0.0    1.0000000    NA           NA
    d2_l2 0.0000000 0.0000000        0.5           NA   1.0           NA
    d2_l3 0.0000000 0.3333333        0.0           NA    NA    1.0000000

ここで、同じドキュメント内のラベル間のコサイン類似度は NA として設定されます。問題は、agnes やその他の階層的クラスタリング手法が NA 値を受け入れないことです。それで、私は何をすべきですか?私はこれについて間違った方法で考えていますか?

4

0 に答える 0