scikit-learn - CountVectorizer の見出し語化でストップワードが削除されない

翻译自：https://stackoverflow.com/questions/50155188 2018-05-03T12:32:17.607

5778 次

次のように、Skit-learn から CountVectorizer に Lematization を追加しようとしています。

import nltk
from pattern.es import lemma
from nltk import word_tokenize
from nltk.corpus import stopwords
from sklearn.feature_extraction.text import CountVectorizer
from nltk.stem import WordNetLemmatizer

class LemmaTokenizer(object):
    def __call__(self, text):
        return [lemma(t) for t in word_tokenize(text)]

vectorizer = CountVectorizer(stop_words=stopwords.words('spanish'),tokenizer=LemmaTokenizer())

sentence = ["EVOLUCIÓN de los sucesos y la EXPANSIÓN, ellos juegan y yo les dije lo que hago","hola, qué tal vas?"]

vectorizer.fit_transform(sentence)

これは出力です：

[u',', u'?', u'car', u'decir', u'der', u'evoluci\xf3n', u'expansi\xf3n', u'hacer', u'holar', u'ir', u'jugar', u'lar', u'ler', u'sucesos', u'tal', u'yar']

更新しました

これは表示され、見出し語化されたストップワードです。

u'lar'、u'ler'、u'der'

すべての単語をレンマティック化し、ストップワードを削除しません。それで、何か考えはありますか？

scikit-learn - CountVectorizer の見出し語化でストップワードが削除されない

1 に答える 1

Related

Reference