についていくつか質問がありTfidfVectorizerます。
どのように言葉を選んでいるのかは不明です。最小限のサポートを提供することはできますが、その後、どの機能が選択されるかを決定するものは何ですか? と言ったらmax_features = 10000、いつも同じですか?と言うとmax_features = 12000、同じ10000機能が得られますが、追加の機能が追加され2000ますか?
また、たとえば、max_features=20000機能を拡張する方法はありますか? 私はそれをいくつかのテキストに当てはめますが、確かに含めるべきいくつかの単語と、いくつかの絵文字「:-)」などを知っています。これらをTfidfVectorizerオブジェクトに追加して、オブジェクトを使用できるようにする方法、それを使用しfitてpredict
to_include = [":-)", ":-P"]
method = TfidfVectorizer(max_features=20000, ngram_range=(1, 3),
# I know stopwords, but how about include words?
stop_words=test.stoplist[:100],
# include words ??
analyzer='word',
min_df=5)
method.fit(traindata)
求める結果:
X = method.transform(traindata)
X
<Nx20002 sparse matrix of type '<class 'numpy.int64'>'
with 1135520 stored elements in Compressed Sparse Row format>],
where N is sample size