word2vec(単語埋め込み) アーキテクチャを理解しようとしていますが、それについていくつか質問があります。
- まず、word2vec モデルが対数線形モデルと見なされるのはなぜですか? 出力層でソフトマックスを使っているからでしょうか?
- 次に、word2vec が非表示レイヤーを削除するのはなぜですか? それは単に計算の複雑さのためですか?
- 第三に、なぜ word2vec はアクティベーション関数を使用しないのですか? (NNLM(Neural Network Language Model)と比較して)。