問題タブ [word2vec]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
cosine-similarity - word2vec、単語埋め込みの合計または平均?
word2vec を使用して、個々の単語の埋め込みを追加するか、単語の埋め込みの平均を計算することにより、小さなフレーズ (3 ~ 4 単語) を一意のベクトルとして表しています。
私が行った実験から、常に同じコサイン類似度が得られます。トレーニング後に word2vec によって生成された単語ベクトルが単位長 (ユークリッド ノルム) に正規化されていることに関係していると思われますか? または、コードにバグがあるか、何か不足しています。
コードは次のとおりです。
出力は次のとおりです。
コサイン類似性 (ウィキペディア)で定義されているコサイン類似性を使用しています。ノルムと内積の値は実際には異なります。
コサインが同じである理由を誰か説明できますか?
ありがとう、デビッド
python - word2vec トレーニング済みモデルにキーが存在するかどうかを確認する方法
Gensim でドキュメントのコーパスを使用して word2vec モデルをトレーニングしました。モデルがトレーニングされたら、次のコードを書いて、「ビュー」という単語の生の特徴ベクトルを取得します。
ただし、おそらく word2vec によってインデックス付けされたキーのリストにキーとして存在しないため、単語の KeyError が発生します。生の特徴ベクトルを取得しようとする前に、キーがインデックスに存在するかどうかを確認するにはどうすればよいですか?
python - gensim で freebase ベクターを使用する
Google が公開しているフリーベースの単語埋め込みを使用しようとしていますが、フリーベースの名前から単語を取得するのに苦労しています。
フリーベース表現をそれらが表す単語にマッピングするための何らかのテーブルが存在するかどうかは誰にもわかりませんか?
よろしく、
ヘディ
machine-learning - Word2Vec で事前トレーニング済みのモデルをマージしますか?
1,000 億語の Google ニュースの事前学習済みベクター ファイルをダウンロードしました。それに加えて、私は自分の 3GB データをトレーニングして、別のトレーニング済みベクター ファイルを生成しています。両方とも 300 の機能ディメンションと 1 GB を超えるサイズがあります。
これらの 2 つの巨大な事前トレーニング済みベクトルをマージするにはどうすればよいですか? または、新しいモデルをトレーニングし、別のモデルの上でベクトルを更新するにはどうすればよいですか? C ベースの word2vec はバッチ トレーニングをサポートしていないようです。
これら2つのモデルから単語の類推を計算しようとしています。これら 2 つの情報源から学習したベクトルは、かなり良い結果をもたらすと信じています。
gensim - Gensim word2vec finding nearest words given a word
How can I find the N-nearest words given a word using gensim's word2vec implementation. What is the API for that? I am referring to skip grams here. Maybe I missed something, I read all about finding similar words, finding the odd one out and so on...
In DL4j I have this method called wordsNearest(String A, int n) which gives me the n-nearest words to A
. What is the equivalent of this in Gensim?
python - 複数のモデルの平均化 Word2vec Gensim
PythonWord2Vec
で数百万語を訓練しました。Gensim
このトレーニング済みモデルを新しいデータで更新したいと考えています。しかし、あなたの以前の投稿やウェブ上の他のソースから、これは不可能であることがわかりました. そのため、複数のモデルを作成してダンプしようとしています。今、私がダンプしているモデルをマージしたいと思います。これらのダンプされた結果を使用したい。以前の投稿Word2Vec で事前トレーニング済みモデルをマージしますか?
しかし、私はそれを行う方法がわかりません。deepdist という名前のライブラリがあることを知りました。いくつかの実験を見ようとしています:
- 可能な解決策はありますか?
- もしあれば、それを行う方法を親切に提案できますか?
Windows 7 Professional で Python2.7 を使用しています。