scikit-learn の TfidfVectorizer を使用しているテキスト ドキュメントの類似性を視覚化したいtfidf = TfidfVectorizer(decode_error='ignore', max_df=3).fit_transform(data)
そして、コサイン類似度計算を次のように実行しますcosine_similarity = (tfidf*tfidf.T).toarray()
これは類似度を与えsklearn.manifold.MDS
ますが、非類似度行列が必要です。1-cosine_similarity を与えると、ゼロであるべき対角値がゼロではありません。などの小さな値です1.12e-9
。2 つの質問:
1) MDS に類似性マトリックスを使用するにはどうすればよいですか、または類似性マトリックスを非類似性マトリックスに変更するにはどうすればよいですか?
2) MDS にはオプションがありdissimilarity
、その値は'precomputed'
または'euclidean'
です。ユークリッドを与えると、間違っているように見えるcosine_similarityまたは1-cosine_similarityを使用するかどうかに関係なく、MDS座標が同じになるため、2つの違いは何ですか。
ありがとう!