すでにトレーニング済みの word2vec モデルの準備ができています。私はそれをCSVファイルとしてシリアル化しました:
word, v0, v1, ..., vN
house, 0.1234, 0.4567, ..., 0.3461
car, 0.456, 0.677, ..., 0.3461
私が知りたいのは、その単語ベクトル モデルを読み込んで、gensim
それを使用して段落または doc2vec モデルをトレーニングする方法です。
このDoc2Vec チュートリアルでは、モデルを " # C text format
" の形式でロードできると書かれていますが、それが実際に何を意味するのかわかりません。そもそも「Cテキスト形式」とは何ですか、しかしもっと重要です:
- word2vec モデルを読み込んで doc2vec トレーニングに使用するにはどうすればよいですか?
word2vec モデルから語彙を構築するにはどうすればよいですか?