python - Pythonを使用して2つの番号付きデータセット間のコサイン類似度を見つける

Question

長さ 22 のデータセットに番号を付けました。各数値は 0 から 1 の間で、その属性のパーセンテージを表します。

[0.03, 0.15, 0.58, 0.1, 0, 0, 0.05, 0, 0, 0.07, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0.01, 0]


[0.9, 0, 0.06, 0.02, 0, 0, 0, 0, 0.02, 0, 0, 0.01, 0, 0, 0, 0, 0.01, 0, 0, 0, 0, 0]


[0.01, 0.07, 0.59, 0.2, 0, 0, 0, 0, 0, 0.05, 0, 0, 0, 0, 0, 0, 0.07, 0, 0, 0, 0, 0]


[0.55, 0.12, 0.26, 0.01, 0, 0, 0, 0.01, 0.02, 0, 0, 0.01, 0, 0, 0.01, 0, 0.01, 0, 0, 0, 0, 0]


[0, 0.46, 0.43, 0.05, 0, 0, 0, 0, 0, 0, 0, 0.02, 0, 0, 0, 0, 0.02, 0.02, 0, 0, 0, 0]

Python を使用して、このような 2 つのデータセット間のコサイン類似度を計算するにはどうすればよいですか?

score 4 · Accepted Answer

コサイン類似度の定義によれば、2 つのベクトルaとの正規化された内積を計算するだけで済みbます。

import numpy as np

a = [0.03, 0.15, 0.58, 0.1, 0, 0, 0.05, 0, 0, 0.07, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0.01, 0]
b = [0.9, 0, 0.06, 0.02, 0, 0, 0, 0, 0.02, 0, 0, 0.01, 0, 0, 0, 0, 0.01, 0, 0, 0, 0, 0]

print np.dot(a, b) / np.linalg.norm(a) / np.linalg.norm(b)

出力：

0.115081383219

score 0 · Accepted Answer

からメソッドを直接使用できます。sklearn

import numpy as np
from sklearn.metrics.pairwise import cosine_similarity
cosine_similarity(np.asmatrix([1,2,3]), np.asmatrix([4,5,6]))[0][0]

出力

0.97463184619707621

注(numpyメソッドは一般に行列で動作するため) np.asmatrix() を使用しない場合、次の警告が表示されます。

DeprecationWarning: Passing 1d arrays as data is deprecated in 0.17 and willraise ValueError in 0.19. Reshape your data either using X.reshape(-1, 1) if your data has a single feature or X.reshape(1, -1) if it contains a single sample

[0][0]最終値をスカラーとして取得するには、出力で使用する必要があります。

python - Pythonを使用して2つの番号付きデータセット間のコサイン類似度を見つける

3 に答える 3

Related

Reference