1

私はドキュメント間のコサイン類似性を見つけています..私はこのようにしました

D1 =(8,0,0,1)ここで、8,0,0,1は、項t1、t2、t3、t4のtf-idfスコアです。

D2 =(7,0,0,1)

cos(theta)=(56 + 0 + 0 + 1)/ sqrt(64 + 49)sqrt(1 +1)

になります

cos(シータ)= 5

さて、この値から何を評価しますか... cos(theta)= 5がそれらの間の類似性について何を意味するのかわかりません...私は正しいことをしていますか?

4

1 に答える 1

2

The denominator is wrong.

The cosine similarity is defined as

         D1 · D2
 sim = ———————————
        |D1| |D2|

Here

D1 · D2 = (7*8 + 0*0 + 0*0 + 1*1) = 57
           ______________________    __
   |D2| = √ 7^2 + 0^2 + 0^2 + 1^2 = √50
           ______________________    __
   |D1| = √ 8^2 + 0^2 + 0^2 + 1^2 = √65

So the similarity should be (57 / √(50 * 65)) = 0.999846142, not 5.

于 2010-05-18T18:38:07.877 に答える