Gensim は最適化された Word2Vec の Python ポートです ( http://radimrehurek.com/2013/09/deep-learning-with-word2vec-and-gensim/を参照) 。
私は現在これらのベクトルを使用しています: http://clic.cimec.unitn.it/composes/semantic-vectors.html
モデルにノイズの多いトークンがあったため、gensim を使用してモデル トレーニングを再実行します。word2vec
だから私はいくつかの同等のパラメータが何であるかを知りたいと思いますgensim
そして、彼らが使用したパラメータは次のword2vec
とおりです。
- 2 ワード コンテキスト ウィンドウ、PMI 重み付け、圧縮なし、300K 次元
Word2Vec モデルをトレーニングするときの gensim の等価性は何ですか?
それは...ですか:
>>> model = Word2Vec(sentences, size=300000, window=2, min_count=5, workers=4)
gensim に PMI 重みオプションはありますか?
word2vec で使用されるデフォルトの min_count は何ですか?
word2vec からの別のパラメーター セットがあります。
- 5 ワードのコンテキスト ウィンドウ、10 個のネガティブ サンプル、サブサンプリング、400 次元。
gensim に負のサンプル パラメータはありますか?
gensimのサブサンプリングのパラメータ等価は何ですか?