3

Gensim は最適化された Word2Vec の Python ポートです ( http://radimrehurek.com/2013/09/deep-learning-with-word2vec-and-gensim/を参照) 。

私は現在これらのベクトルを使用しています: http://clic.cimec.unitn.it/composes/semantic-vectors.html

モデルにノイズの多いトークンがあったため、gensim を使用してモデル トレーニングを再実行します。word2vecだから私はいくつかの同等のパラメータが何であるかを知りたいと思いますgensim

そして、彼らが使用したパラメータは次のword2vecとおりです。

  • 2 ワード コンテキスト ウィンドウ、PMI 重み付け、圧縮なし、300K 次元

Word2Vec モデルをトレーニングするときの gensim の等価性は何ですか?

それは...ですか:

>>> model = Word2Vec(sentences, size=300000, window=2, min_count=5, workers=4)

gensim に PMI 重みオプションはありますか?

word2vec で使用されるデフォルトの min_count は何ですか?

word2vec からの別のパラメーター セットがあります。

  • 5 ワードのコンテキスト ウィンドウ、10 個のネガティブ サンプル、サブサンプリング、400 次元。

gensim に負のサンプル パラメータはありますか?

gensimのサブサンプリングのパラメータ等価は何ですか?

4

1 に答える 1