gensim word2vec の 2 つの類似度測定値の違いを知りたかった: most_similar() と most_similar_cosmul()。最初のものは単語ベクトルの余弦類似度を使用して機能するのに対し、他のものは Omer Levy と Yoav Goldberg によって提案された乗法結合目的を使用することを知っています。それが結果にどのように影響するか知りたいですか?意味的な類似性を与えるのはどれですか? など。例:
model = Word2Vec(sentences, size=100, window=5, min_count=5, workers=4)
model.most_similar(positive=['woman', 'king'], negative=['man'])
結果: [('queen', 0.50882536), ...]
model.most_similar_cosmul(positive=['baghdad', 'england'], negative=['london'])
結果 : [(u'iraq', 0.8488819003105164), ...]