このページでは、次のように述べられています。
[...] skip-gram は文脈と対象を反転させ、対象の単語から各文脈の単語を予測しようとします [...]
ただし、それが生成するトレーニング データセットを見ると、X と Y のペアの内容は、(X, Y) の 2 つのペアとして交換可能であるように見えます。
(quick, brown), (brown, quick)
では、最終的に同じものである場合、なぜコンテキストとターゲットをそれほど区別するのでしょうか?
また、Word2vecで Udacity のディープ ラーニング コースの演習を行っていると、なぜこの問題でこれら 2 つのアプローチの違いがそれほど大きいように見えるのか疑問に思います。
skip-gram に代わるものは、CBOW (Continuous Bag of Words) と呼ばれる別の Word2Vec モデルです。CBOW モデルでは、単語ベクトルからコンテキスト ワードを予測する代わりに、コンテキスト内のすべての単語ベクトルの合計から単語を予測します。text8 データセットでトレーニングされた CBOW モデルを実装して評価します。
これで同じ結果が得られるのではないでしょうか?