Gensim sample= 0
word2vec では、トレーニング中にダウンサンプリングが使用されていないということですか? ドキュメントはまさにそれを言っています
「有用な範囲は (0, 1e-5) です」
ただし、しきい値を 0 にすると、P(wi) が 1 に等しくなり、単語が破棄されないことを意味します。これは正しく理解できているでしょうか?
私は 7597 件の Facebook 投稿 (18945 ワード) の比較的小さなデータセットに取り組んでおりsample= 0
、推奨範囲内の他のものよりも、埋め込みのパフォーマンスがはるかに優れています。特に理由はありますか?文字サイズ?