コサイン類似度: 2 つのドキュメントを相互に比較するときによく使用されます。2 つのベクトル間の角度を測定します。値がゼロの場合、2 つのベクトル間の角度は 90 度であり、項を共有しません。値が 1 の場合、2 つのベクトルは大きさを除いて同じです。コサインは、データがまばらで非対称であり、特性が不足しているという類似性がある場合に使用されます。
2 つのベクトル (ドキュメント) にコサインを使用すると、次の表に従って結果が得られます。
id Doc1(TF) Doc2 (TF)
London 5 3
Is 2 2
Nice 10 3
City 0 1
次に、その正規化を最後まで取得します。次に、コサイン Cos(v1,v2)= 90% を取得します。
しかし、10個のドキュメントがある場合、それは取得したことを意味します
Cos(v1,v2)= ?
Cos(v1,v3)= ?
Cos(v1,v5)= ?
Cos(v1,v6)= ?
Cos(v1,v7)= ?
Cos(v1,v8)= ?
Cos(v1,v9)= ?
Cos(v2,v3)= ?
Cos(v2,v4)= ?
Cos(v2,v5)= ?
And so o n
Until
Cos(v9,v10)= ?
次に、結果を比較する必要があります。
速い方法はありますか?cos を 10 個以上のドキュメントに取得するにはどうすればよいですか。
2 つのドキュメントの余弦を取得する方法は知っていますが、さらに多くのドキュメントを取得するにはどうすればよいでしょうか? 数学的方法が欲しい。