python - 独自の Glove モデルのトレーニング中のエンコードの問題

翻译自：https://stackoverflow.com/questions/55693318 2019-04-15T16:13:35.943

1058 次

私は自分のコーパスを使用して GloVe モデルをトレーニングしていますが、それをutf-8フォーマットで保存/ロードするのに問題があります。

ここで私が試したこと：

from glove import Corpus, Glove

#data
lines = [['woman', 'umbrella', 'silhouetted'], ['person', 'black', 'umbrella']]

#GloVe training
corpus = Corpus() 
corpus.fit(lines, window=4)
glove = Glove(no_components=4, learning_rate=0.1)
glove.fit(corpus.matrix, epochs=10, no_threads=8, verbose=True)
glove.add_dictionary(corpus.dictionary)
glove.save('glove.model.txt')

保存したファイルglove.model.txtを読み取ることができず、utf-8エンコーディングで保存できません。

たとえば、Word2Vec形式に変換して読み込もうとすると、次のようになります。

from gensim.models.keyedvectors import KeyedVectors
from gensim.scripts.glove2word2vec import glove2word2vec
glove2word2vec(glove_input_file="glove.model.txt", 
word2vec_output_file="gensim_glove_vectors.txt")    

model = KeyedVectors.load_word2vec_format("gensim_glove_vectors.txt", binary=False)

次のエラーがあります。

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x80 in position 0: invalid start byte

自分の GloVe モデルをどのように使用できるかについてのアイデアはありますか?

python - 独自の Glove モデルのトレーニング中のエンコードの問題

1 に答える 1

Related

Reference