問題タブ [glove]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
gensim - KeyedVectors ボキャブから単語を削除する方法はありますか?
「gensim.models.keyedvectors.Word2VecKeyedVectors」の語彙から無効な単語を削除する必要があります。
を使用して削除しようとしましたが、del model.vocab[word]
印刷するmodel.vocab
と単語が消えましたが、model.most_similar
他の単語を使用して実行すると、削除した単語がまだ同様に表示されます。model.vocab
では、影響を与える方法で単語を削除するにはどうすればよいmodel.most_similar
でしょうか。
python - pytorch の埋め込み層で特定の埋め込み重みのみをフリーズすることは可能ですか?
NLP タスクで GloVe 埋め込みを使用する場合、データセットの一部の単語が GloVe に存在しない場合があります。したがって、これらの未知の単語に対してランダムな重みをインスタンス化します。
GloVe から取得したウェイトをフリーズして、新しくインスタンス化されたウェイトのみをトレーニングすることは可能でしょうか?
設定できることだけは知っています: model.embedding.weight.requires_grad = False
しかし、これは新しい単語を訓練できなくします..
または、単語のセマンティクスを抽出するより良い方法はありますか..
nlp - リポジトリに fastText ベクター ファイルを保持せずに単語埋め込みを作成する
Infersent を使用して文を埋め込もうとしていますが、 Infersent は単語の埋め込みにfastTextベクトルを使用します。fastText ベクター ファイルは 5 GiB 近くです。
fastText ベクター ファイルをコード リポジトリと一緒に保持すると、リポジトリのサイズが巨大になり、コードの共有/デプロイが困難になります (docker コンテナーの作成さえも)。
ベクターファイルをリポジトリと一緒に保持することを避け、新しい文を埋め込むために再利用する方法はありますか?