問題タブ [word2vec]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Gensim Word2vec 格納属性 syn0norm
プロジェクトにword2vecを使用しようとしていますが、トレーニング後に次のようになります。
を保存する方法はありますかsyn0norm
。
どうすればそうできますか?
python - リスト内の 2 つの単語間のコサイン類似度
単語のリストを取得し、リスト内の相互にゼロ以外のコサイン類似度を持つ単語に関する情報を返す関数を定義しています (類似度値とともに)。
誰でもこれで私を助けることができますか?事前に計算された word2vec ベクター ファイルを取得できれば非常に役立つと考えていましたが、インターネット上には何もありません。
python - Gensim word2vec は、事前トレーニング済みのベクトルを拡張またはマージします
次のような word2vec C コードから生成されたバイナリ ファイルから事前トレーニング済みのベクトルをロードしています。
これらのベクトルを使用して、 にまだベクトルが存在しない可能性のある単語を含む文のベクトル表現を生成していますvectors.bin
。たとえば、vectors.bin
「ヨーグルト」という単語に関連付けられたベクトルがない場合、試してみます
これは理にKeyError: 'yogurt'
かなっています。私が望むのは、対応するベクトルを持たない文の単語を取り、それらの表現を に追加できるようにすることmodel_1
です。この投稿から、C ベクトルのトレーニングを続けることができないことを認識しています。では、新しいモデルをトレーニングする方法はありますか?たとえばmodel_2
、ベクトルのない単語に対して とマージmodel_2
しmodel_1
ますか?
あるいは、少なくとも KeyError を回避できるように、実際に単語を取得しようとする前に、モデルに単語が含まれているかどうかをテストする方法はありますか?
word2vec - 文中のトークンのword2vecから文のベクトルを取得する方法
word2vec を使用して、大きなドキュメントからトークンのリストのベクトルを生成しました。文が与えられた場合、文のトークンのベクトルから文のベクトルを取得することは可能ですか?
python - Word2Vec と Gensim パラメーターの同等性
Gensim は最適化された Word2Vec の Python ポートです ( http://radimrehurek.com/2013/09/deep-learning-with-word2vec-and-gensim/を参照) 。
私は現在これらのベクトルを使用しています: http://clic.cimec.unitn.it/composes/semantic-vectors.html
モデルにノイズの多いトークンがあったため、gensim を使用してモデル トレーニングを再実行します。word2vec
だから私はいくつかの同等のパラメータが何であるかを知りたいと思いますgensim
そして、彼らが使用したパラメータは次のword2vec
とおりです。
- 2 ワード コンテキスト ウィンドウ、PMI 重み付け、圧縮なし、300K 次元
Word2Vec モデルをトレーニングするときの gensim の等価性は何ですか?
それは...ですか:
gensim に PMI 重みオプションはありますか?
word2vec で使用されるデフォルトの min_count は何ですか?
word2vec からの別のパラメーター セットがあります。
- 5 ワードのコンテキスト ウィンドウ、10 個のネガティブ サンプル、サブサンプリング、400 次元。
gensim に負のサンプル パラメータはありますか?
gensimのサブサンプリングのパラメータ等価は何ですか?
machine-learning - AdaGram.jl のトレーニング テキストの問題
私は Julia プログラミング言語の初心者です。マシンに Adaptive Skip-gram (AdaGram) モデルをインストールしようとしています。私は次の問題に直面しています。モデルをトレーニングする前に、トークン化されたファイルと辞書ファイルが必要です。今私の質問は、tokenize.sh と dictionary.sh に与えられるべき入力は何ですか。出力ファイルの生成が実際に行われる方法と、その拡張子を教えてください。
これは、私が言及しているウェブサイトのリンクです: https://github.com/sbos/AdaGram.jl。これはhttps://code.google.com/p/word2vec/とまったく同じです
nlp - ウェブページのプールから、特定のウェブページに類似したページを見つける
一連の Web ページが与えられ、ページ レコメンダーを作成する必要があります。アプリケーションに指定された URL に関係なく、アプリケーションは指定されたプールから URL のページに類似したページを見つけることができる必要があります。
それを行うためのさまざまなアプローチを探してみました。word2vec の使用に興味がありました。指定されたすべての Web ページ セットをクロールし、そのページのコンテンツに基づいてそのページのタグを生成することを計画しています。これらのタグから、word2vec を使用してページのベクトル値を計算し、保存することを望んでいました。検索するとき、同様の値を探すために、同様の方法で特定のページのベクトルを計算します。これは word2vec を使用する正しい方法ですか? どのトレーニング ベクトルを使用する必要がありますか? このタスクを実行するための他のより良い方法はありますか?または、プレーンテキストの一致がより良いオプションでしょうか?
nlp - word2vec を使用してユーザー間の類似度を計算する
最近、word2vec というツールの存在を知りました。私の現在の仕事では、特定のユーザーに似ているユーザーを見つける必要があります。単一のユーザーには、年齢、資格、機関/組織、既知の言語、特定のタグのリストなどのエンティティが関連付けられています。これらのエンティティ/列のそれぞれをユーザーの単語のランダムなチャンクと見なす場合、それに対応してそのユーザーのベクトル値を計算し、これらの値を使用してユーザー間の類似性を推測できますか? ウィキ トレーニング ベクトルは意味のある結果を得るのに役立ちますか?それを行う他の方法はありますか?