まず第一に、私は python と nlp / 機械学習が初めてです。今、私は次のコードを持っています:
vectorizer = CountVectorizer(
input="content",
decode_error="ignore",
strip_accents=None,
stop_words = stopwords.words('english'),
tokenizer=myTokenizer
)
counts = vectorizer.fit_transform(data['message'].values)
classifier = MultinomialNB()
targets = data['sentiment'].values
classifier.fit(counts, targets)
これは実際にはかなりうまく機能します。を介してスパース マトリックスを取得してCountVectorizer
おりclassifier
、ターゲットと同様にマトリックスを利用しています(0,2,4)
。
ただし、単語数だけでなく、ベクトルでより多くの機能を使用したい場合はどうすればよいでしょうか? 私はそれを見つけることができないようです。前もって感謝します。