ニューラルネットワークをトレーニングし、ベクトル空間で類似の単語を見つけるためのニューラル埋め込みを構築するために word2vec モデルを使用しています。しかし、私の質問は、このhttps://iksinc.wordpress.com/2015/04/13のように、トレーニングの開始時に乱数 (ベクトル) によってそれらを初期化する、単語とコンテキストの埋め込み (行列) の次元についてです。 /words-as-vectors/
{book,paper,notebook,novel} の単語をグラフに表示したいとしましょう。まず、この次元 4x2、4x3、または 4x4 などの行列を作成する必要があります。行列の最初の次元のサイズはわかっています。私たちの語彙 |v|。しかし、行列の 2 番目の次元 (ベクトルの次元の数)、たとえば、これは単語「本」のベクトル [0.3,0.01,0.04] です。これらの数値は何ですか?それらには何らかの意味がありますか?たとえば、関連する 0.3 数値語彙の単語「本」と「紙」の関係に対して、0.01 は本とノートなどの関係です。ちょうど TF-IDF、または各次元 (列) Y が意味を持つ Co-Occurence 行列のように -行 X の単語に関連する単語またはドキュメントです。