問題タブ [word2vec]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
6567 参照

cosine-similarity - word2vec、単語埋め込みの合計または平均?

word2vec を使用して、個々の単語の埋め込みを追加するか、単語の埋め込みの平均を計算することにより、小さなフレーズ (3 ~ 4 単語) を一意のベクトルとして表しています。

私が行った実験から、常に同じコサイン類似度が得られます。トレーニング後に word2vec によって生成された単語ベクトルが単位長 (ユークリッド ノルム) に正規化されていることに関係していると思われますか? または、コードにバグがあるか、何か不足しています。

コードは次のとおりです。

出力は次のとおりです。

コサイン類似性 (ウィキペディア)で定義されているコサイン類似性を使用しています。ノルムと内積の値は実際には異なります。

コサインが同じである理由を誰か説明できますか?

ありがとう、デビッド

0 投票する
6 に答える
42511 参照

python - word2vec トレーニング済みモデルにキーが存在するかどうかを確認する方法

Gensim でドキュメントのコーパスを使用して word2vec モデルをトレーニングしました。モデルがトレーニングされたら、次のコードを書いて、「ビュー」という単語の生の特徴ベクトルを取得します。

ただし、おそらく word2vec によってインデックス付けされたキーのリストにキーとして存在しないため、単語の KeyError が発生します。生の特徴ベクトルを取得しようとする前に、キーがインデックスに存在するかどうかを確認するにはどうすればよいですか?

0 投票する
2 に答える
1847 参照

python - gensim で freebase ベクターを使用する

Google が公開しているフリーベースの単語埋め込みを使用しようとしていますが、フリーベースの名前から単語を取得するのに苦労しています。

フリーベース表現をそれらが表す単語にマッピングするための何らかのテーブルが存在するかどうかは誰にもわかりませんか?

よろしく、

ヘディ

0 投票する
2 に答える
3604 参照

machine-learning - Word2Vec で事前トレーニング済みのモデルをマージしますか?

1,000 億語の Google ニュースの事前学習済みベクター ファイルをダウンロードしました。それに加えて、私は自分の 3GB データをトレーニングして、別のトレーニング済みベクター ファイルを生成しています。両方とも 300 の機能ディメンションと 1 GB を超えるサイズがあります。

これらの 2 つの巨大な事前トレーニング済みベクトルをマージするにはどうすればよいですか? または、新しいモデルをトレーニングし、別のモデルの上でベクトルを更新するにはどうすればよいですか? C ベースの word2vec はバッチ トレーニングをサポートしていないようです。

これら2つのモデルから単語の類推を計算しようとしています。これら 2 つの情報源から学習したベクトルは、かなり良い結果をもたらすと信じています。

0 投票する
2 に答える
2204 参照

gensim - Gensim word2vec finding nearest words given a word

How can I find the N-nearest words given a word using gensim's word2vec implementation. What is the API for that? I am referring to skip grams here. Maybe I missed something, I read all about finding similar words, finding the odd one out and so on...

In DL4j I have this method called wordsNearest(String A, int n) which gives me the n-nearest words to A. What is the equivalent of this in Gensim?

0 投票する
1 に答える
396 参照

python - 複数のモデルの平均化 Word2vec Gensim

PythonWord2Vecで数百万語を訓練しました。Gensimこのトレーニング済みモデルを新しいデータで更新したいと考えています。しかし、あなたの以前の投稿やウェブ上の他のソースから、これは不可能であることがわかりました. そのため、複数のモデルを作成してダンプしようとしています。今、私がダンプしているモデルをマージしたいと思います。これらのダンプされた結果を使用したい。以前の投稿Word2Vec で事前トレーニング済みモデルをマージしますか? しかし、私はそれを行う方法がわかりません。deepdist という名前のライブラリがあることを知りました。いくつかの実験を見ようとしています:

  1. 可能な解決策はありますか?
  2. もしあれば、それを行う方法を親切に提案できますか?

Windows 7 Professional で Python2.7 を使用しています。