python - scikit-learn で MDS に非類似度マトリックスの代わりに類似度マトリックスを使用する

翻译自：https://stackoverflow.com/questions/27337610 2014-12-06T23:09:00.470

2377 次

scikit-learn の TfidfVectorizer を使用しているテキストドキュメントの類似性を視覚化したいtfidf = TfidfVectorizer(decode_error='ignore', max_df=3).fit_transform(data)

そして、コサイン類似度計算を次のように実行しますcosine_similarity = (tfidf*tfidf.T).toarray()

これは類似度を与えsklearn.manifold.MDSますが、非類似度行列が必要です。1-cosine_similarity を与えると、ゼロであるべき対角値がゼロではありません。などの小さな値です1.12e-9。2 つの質問:

1) MDS に類似性マトリックスを使用するにはどうすればよいですか、または類似性マトリックスを非類似性マトリックスに変更するにはどうすればよいですか?

2) MDS にはオプションがありdissimilarity、その値は'precomputed'または'euclidean'です。ユークリッドを与えると、間違っているように見えるcosine_similarityまたは1-cosine_similarityを使用するかどうかに関係なく、MDS座標が同じになるため、2つの違いは何ですか。

ありがとう！

python - scikit-learn で MDS に非類似度マトリックスの代わりに類似度マトリックスを使用する

1 に答える 1

Related

Reference