についていくつか質問がありTfidfVectorizer
ます。
どのように言葉を選んでいるのかは不明です。最小限のサポートを提供することはできますが、その後、どの機能が選択されるかを決定するものは何ですか? と言ったらmax_features = 10000
、いつも同じですか?と言うとmax_features = 12000
、同じ10000
機能が得られますが、追加の機能が追加され2000
ますか?
また、たとえば、max_features=20000
機能を拡張する方法はありますか? 私はそれをいくつかのテキストに当てはめますが、確かに含めるべきいくつかの単語と、いくつかの絵文字「:-)」などを知っています。これらをTfidfVectorizer
オブジェクトに追加して、オブジェクトを使用できるようにする方法、それを使用しfit
てpredict
to_include = [":-)", ":-P"]
method = TfidfVectorizer(max_features=20000, ngram_range=(1, 3),
# I know stopwords, but how about include words?
stop_words=test.stoplist[:100],
# include words ??
analyzer='word',
min_df=5)
method.fit(traindata)
求める結果:
X = method.transform(traindata)
X
<Nx20002 sparse matrix of type '<class 'numpy.int64'>'
with 1135520 stored elements in Compressed Sparse Row format>],
where N is sample size