word2vec - GoogleNews-vectors-negative300.bin での OOV 単語の処理

質問する 2019-09-16T04:18:26.643

692 次

次のようにトークン化された文の各単語の単語ベクトルを計算する必要があります。

['my', 'aunt', 'give', 'me', 'a', 'teddy', 'ruxpin'].

事前トレーニング済みの [fastText][1] Embeddings: cc.en.300.bin.gz by facebook を使用していた場合。OOVで取得できました。ただし、GoogleNews-vectors-negative300.bin から Google の word2vec を使用すると、InvalidKey エラーが返されます。私の質問は、OOV である単語ベクトルをどのように計算するかです。オンラインで検索しましたが、何も見つかりませんでした。もちろん、これを行うには、Google の word2vec にリストされていない単語を含むすべての文を削除します。しかし、16134 のうち 5550 だけが完全に埋め込みに含まれていることに気付きました。

私もやった

model = gensim.models.KeyedVectors.load_word2vec_format('/content/drive/My Drive/Colab Notebooks/GoogleNews-vectors-negative300.bin', binary=True) 
model.train(sentences_with_OOV_words)

ただし、tensorflow 2 はエラーを返します。

どんな助けでも大歓迎です。

word2vec - GoogleNews-vectors-negative300.bin での OOV 単語の処理

3 に答える 3

Related

Reference