nlp - CBOW とスキップグラム: コンテキストを反転して単語をターゲットにするのはなぜですか?

Question

このページでは、次のように述べられています。

[...] skip-gram は文脈と対象を反転させ、対象の単語から各文脈の単語を予測しようとします [...]

ただし、それが生成するトレーニングデータセットを見ると、X と Y のペアの内容は、(X, Y) の 2 つのペアとして交換可能であるように見えます。

(quick, brown), (brown, quick)

では、最終的に同じものである場合、なぜコンテキストとターゲットをそれほど区別するのでしょうか?

また、Word2vecで Udacity のディープラーニングコースの演習を行っていると、なぜこの問題でこれら 2 つのアプローチの違いがそれほど大きいように見えるのか疑問に思います。

skip-gram に代わるものは、CBOW (Continuous Bag of Words) と呼ばれる別の Word2Vec モデルです。CBOW モデルでは、単語ベクトルからコンテキストワードを予測する代わりに、コンテキスト内のすべての単語ベクトルの合計から単語を予測します。text8 データセットでトレーニングされた CBOW モデルを実装して評価します。

これで同じ結果が得られるのではないでしょうか?

score 1 · Accepted Answer

それは、特定の時点で正確に計算しているものと関係があります。各確率計算により大きなコンテキストを組み込んだモデルを見始めると、違いがより明確になります。

スキップグラムでは、文の現在の位置にある単語から文脈単語を計算しています。計算で現在の単語 (および潜在的にはコンテキストの一部) を「スキップ」しています。結果は複数の単語になる可能性があります (ただし、コンテキストウィンドウの長さが 1 単語だけの場合はそうではありません)。

CBOW では、コンテキストの単語から現在の単語を計算しているため、結果として 1 つの単語しか得られません。

score 0 · Accepted Answer

ディープラーニングコースでは、coursera https://www.coursera.org/learn/nlp-sequence-models?specialization=deep-learningから、Andrew NG がコンテキストターゲットの概念を切り替えていないことがわかります。これは、ターゲットワードが CBOW であるかスキップグラムであるかに関係なく、常に予測対象のワードとして扱われることを意味します。

nlp - CBOW とスキップグラム: コンテキストを反転して単語をターゲットにするのはなぜですか?

3 に答える 3

Related

Reference