52

このページでは、のように述べられています。

[...] skip-gram は文脈と対象を反転させ、対象の単語から各文脈の単語を予測しようとします [...]

ただし、それが生成するトレーニング データセットを見ると、X と Y のペアの内容は、(X, Y) の 2 つのペアとして交換可能であるように見えます。

(quick, brown), (brown, quick)

では、最終的に同じものである場合、なぜコンテキストとターゲットをそれほど区別するのでしょうか?

また、Word2vecで Udacity のディープ ラーニング コースの演習を行っていると、なぜこの問題でこれら 2 つのアプローチの違いがそれほど大きいように見えるのか疑問に思います。

skip-gram に代わるものは、CBOW (Continuous Bag of Words) と呼ばれる別の Word2Vec モデルです。CBOW モデルでは、単語ベクトルからコンテキスト ワードを予測する代わりに、コンテキスト内のすべての単語ベクトルの合計から単語を予測します。text8 データセットでトレーニングされた CBOW モデルを実装して評価します。

これで同じ結果が得られるのではないでしょうか?

4

3 に答える 3

1

それは、特定の時点で正確に計算しているものと関係があります。各確率計算により大きなコンテキストを組み込んだモデルを見始めると、違いがより明確になります。

スキップグラムでは、文の現在の位置にある単語から文脈単語を計算しています。計算で現在の単語 (および潜在的にはコンテキストの一部) を「スキップ」しています。結果は複数の単語になる可能性があります (ただし、コンテキスト ウィンドウの長さが 1 単語だけの場合はそうではありません)。

CBOW では、コンテキストの単語から現在の単語を計算しているため、結果として 1 つの単語しか得られません。

于 2016-07-11T13:37:25.843 に答える
0

ディープ ラーニング コースでは、coursera https://www.coursera.org/learn/nlp-sequence-models?specialization=deep-learningから、Andrew NG がコンテキスト ターゲットの概念を切り替えていないことがわかります。これは、ターゲット ワードが CBOW であるかスキップ グラムであるかに関係なく、常に予測対象のワードとして扱われることを意味します。

于 2022-01-20T14:12:40.343 に答える