1

すでにトレーニング済みの word2vec モデルの準備ができています。私はそれをCSVファイルとしてシリアル化しました:

word,  v0,     v1,     ..., vN
house, 0.1234, 0.4567, ..., 0.3461
car,   0.456,  0.677,  ..., 0.3461

私が知りたいのは、その単語ベクトル モデルを読み込んで、gensimそれを使用して段落または doc2vec モデルをトレーニングする方法です。

このDoc2Vec チュートリアルでは、モデルを " # C text format" の形式でロードできると書かれていますが、それが実際に何を意味するのかわかりません。そもそも「Cテキスト形式」とは何ですか、しかしもっと重要です:

  • word2vec モデルを読み込んで doc2vec トレーニングに使用するにはどうすればよいですか?

word2vec モデルから語彙を構築するにはどうすればよいですか?

4

1 に答える 1

1

Doc2Vec は、入力として単語ベクトルを必要としません。それ自体のトレーニング中に必要な単語ベクトルを作成します。(そして、純粋な DBOW のようないくつかのモード – dm=0, dbow_words=0– 単語ベクトルをまったく使用またはトレーニングしません。)

単語ベクトルを使用して Doc2Vec モデルをシードすることは、役立つ場合と害を及ぼす場合があります。ガイダンスを提供するための理論や公開された結果はあまりありません。Word2Vec には、word2vec-c 形式のベクトルを既存のボキャブラリを持つモデルにマージできる実験的な方法がありintersect_word2vec_format()ますが、その仮定を本当に理解するには、ソースを確認する必要があります。

https://github.com/RaRe-Technologies/gensim/blob/51753b95415bbc344ea6af671818277464905ea2/gensim/models/word2vec.py#L1140

于 2016-07-29T02:38:08.377 に答える