2

を使用してウィキペディアを処理したいgensim.corpora.wikicorpus。私の最終的な目的は、そこからWord2Vecモデルをトレーニングすることです。

動作していますが、スペイン語のアクセント付き母音に問題があります: á、é、í、ó、ú。

それらをa、e、i、o、uに正規化したい。

gensimにはdeaccent関数があるようですが、コーパスの構築中に直接適用したいと思います。これはできますか?

これが実際の例です:

from gensim.corpora import WikiCorpus
from gensim.models.word2vec import  Word2Vec
import logging

logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s',
                level=logging.INFO)

# I would like to include here the normalization
corpus = WikiCorpus('/Users/jesusfbes/Desktop/eswiki-latest-pages-articles.xml.bz2', dictionary=False)


max_sentence = -1


def generate_lines():
    for index, text in enumerate(corpus.get_texts()):
        if index < max_sentence or max_sentence == -1:
            yield text
        else:
            break

model = Word2Vec(size=400, window=5, min_count=5)
model.build_vocab(generate_lines())
model.train(generate_lines(), chunksize=500)

model.save('mymodel')
4

1 に答える 1