machine-learning - DeepLearning4J - ParagraphVectors: 類似度がマイナスになるのはなぜですか?

Question

DeepLearning4j フレームワークで ParagraphVector ツールを使用しています。私がやっていることは、一連のテキストドキュメントでモデルをトレーニングし、それらのドキュメント間の類似性を計算することです。

さて、参照ページ ( http://deeplearning4j.org/word2vec ) にあるように、ツールが類似度を計算するために使用するメトリックはコサイン類似度であり、これは 0 から 1 の間に含まれる必要があります。負のスコアを取得します。

それがなぜなのか誰にもわかりますか？

前もって感謝します。

score 0 · Accepted Answer

定義によると、コサイン類似度は [-1, 1] の範囲内です。https://en.wikipedia.org/wiki/Cosine_similarity

したがって、技術的には、w2v/d2v に対して負の値を取得することは依然として可能です。

ただし、通常、-1 またはそれに近いものは表示されません。

1 に答える 1