問題タブ [glove]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - 特定の単語をベクターにマップできません
GloVeを使用した単語からベクトルへのマッピングの実装に問題があります。私のコードは正常に動作しているようですが、奇妙な問題があります。特定の単語「the」をベクトル表現にマップしようとするとエラーが発生します。なぜこれが起こっているのか分かりません。
これは、GloVe ファイルを読み取るための私のコードです。
ご覧のとおり、上記の関数は変数 'word_to_vec_map' を返します。これは、単語をトレーニング セットから GloVe 表現にマップすることになっています。
トレーニング セットのスニペットを次に示します。
word_to_vec_map を使用して単語をマッピングできるように見えます。
しかしその後:
なぜこれが起こっているのか誰にも分かりますか?この特定の単語をマップできないのはなぜですか?
vector - word2vecに似た.vecとしてBERT単語埋め込みを保存する方法
生成された BERT 単語埋め込みを Torchtext で語彙を構築するためのベクトルとして使用したい GloVe や word2vec などのベクトルをロードできますが、BERT からの単語埋め込みを Torchtext vocab で受け入れられる形式に保存する方法がわかりませんでした
このコードを試すと
次のエラーが表示されます。
nlp - GloVe 単語ベクトル コサイン類似度 - 「味方」よりも「強力」に近い「味方」
GloVe単語ベクトルを使用してPython 3.6で(正しい実装であることが検証された関数を使用して)コサイン類似度について「ally」と「friend」という2つの単語をテストしたところ、コサイン類似度は
0.6274969008615137
. しかし、「同盟国」と「友人」をテストしたところ、結果は でした0.4700224263147646
。
同義語として与えられた 2 つの名詞 "ally" と "friend" は、名詞でほとんど関係のない単語である "ally" と "powerful" よりもコサイン類似度が大きいはずです。
単語ベクトルまたはコサイン類似度の考え方を誤解していますか?
nlp - 転移学習を使用して、異なるモデルの単語ベクトルを比較できますか?
異なるコーパスで 2 つの word2vec/GLoVe モデルをトレーニングしてから、1 つの単語のベクトルを比較したいと考えています。さまざまなモデルがさまざまなランダムな状態で開始されるため、そうする意味がないことはわかっていますが、事前にトレーニングされた単語ベクトルを開始点として使用するとどうなるでしょうか。2 つのモデルが、それぞれのドメイン固有の知識を組み込むことによって、事前にトレーニングされたベクトルに基づいて構築され続け、完全に異なる状態に移行しないと仮定できますか?
この問題について議論している研究論文をいくつか見つけようとしましたが、何も見つかりませんでした。
keras - GLOVE のような事前トレーニング済みの word2vec を使用して NN モデルをトレーニングする場合、ボキャブラリはトレーニング セットのボキャブラリに制限する必要がありますか?
GLOVE の事前トレーニング済みベクトルを使用して、ニューラル ネットワークの埋め込みレイヤーに単語埋め込みを使用したいと考えていました。word2index 辞書を作成するときに、語彙をトレーニング セットに制限する必要がありますか? それは限定された非一般化モデルにつながるのではないでしょうか? GLOVE のすべてのボキャブラリを考慮することは推奨される方法ですか?