質問は簡単です。CBOW とスキップグラムのどちらが大きなデータセットに適していますか? (そして、小さなデータセットの答えは次のとおりです。)
ミコロフ自身が[Link]
Skip-gram:少量のトレーニング データでうまく機能し、まれな単語やフレーズもうまく表現します。
CBOW: スキップグラムより数倍高速にトレーニングでき、頻出単語の精度がわずかに向上
しかし、Google TensorFlow によると、[リンク]
CBOW は、多くの分布情報を平滑化します (コンテキスト全体を 1 つの観測として扱うことにより)。ほとんどの場合、これは小さなデータセットの場合に便利です。ただし、skip-gram は各コンテキストとターゲットのペアを新しい観測として扱います。これは、より大きなデータセット
がある場合にうまくいく傾向があります。このチュートリアルの残りの部分では、スキップグラム モデルに焦点を当てます。
最初の考えを支持する Quora の投稿[リンク]と、2 番目の考えを示唆する別の Quora の投稿[リンク]があります。どちらも、前述の信頼できる情報源から導き出せるようです。
それとも、ミコロフが言ったことのようなものですか:
全体として、ベスト プラクティスは、アプリケーションによって要件が異なるため、いくつかの実験を試して、何が最適かを確認することです。
しかし、確かに、この問題について経験的または分析的な評決または最終的な発言はありますか?