0

Distributed Bag of Words (DBOW) を使用していますが、1 つのエポックで何が起こるのか知りたいですか? DBOW はすべてのドキュメント (別名バッチ) を循環しますか、それともドキュメントのサブセット (別名ミニバッチ) を循環しますか? さらに、特定のドキュメントに対して、DBOW はテキスト ウィンドウから単語をランダムにサンプリングし、重みを学習してそのターゲット単語をウィンドウ内の周囲の単語に関連付けます。これは、DBOW がドキュメント内のすべてのテキストを処理しない可能性があることを意味しますか?

GENSIM ( https://github.com/RaRe-Technologies/gensim ) コードを調べて、バッチのパラメーターがあるかどうかを確認しましたが、うまくいきませんでした。

4

1 に答える 1

0

gensim での PV-DBOW トレーニングの 1 つのエポックは、Doc2Vecすべてのテキストを反復し、次に各テキストについてすべての単語を反復し、各単語を順番に予測しようとし、その予測された単語の修正をすぐに逆伝播します。つまり、「ミニバッチ処理」はまったくありません。各ターゲット単語は個別の予測/逆伝播です。

(テキストのグループがワーカー スレッドに送信される方法には一種のバッチ処理があり、これにより順序が多少変更される可能性がありますが、ニューラル ネットワークに提示される個々のトレーニング例は個別に修正されるため、SGD-mini はありません。 -バッチ処理が発生しています。)

各テキストの単語は順番に考慮され、次の場合にのみスキップされmin_countます。(b) 単語が非常に頻繁に使用され、パラメーターの値を介してランダムに削除されるように選択されsampleます。したがって、通常、トレーニングはすべてのドキュメントのすべての重要な単語を含むと考えることができます。

于 2019-06-14T16:15:29.513 に答える