7

についていくつか質問がありTfidfVectorizerます。

どのように言葉を選んでいるのかは不明です。最小限のサポートを提供することはできますが、その後、どの機能が選択されるかを決定するものは何ですか? と言ったらmax_features = 10000、いつも同じですか?と言うとmax_features = 12000、同じ10000機能が得られますが、追加の機能が追加され2000ますか?

また、たとえば、max_features=20000機能を拡張する方法はありますか? 私はそれをいくつかのテキストに当てはめますが、確かに含めるべきいくつかの単語と、いくつかの絵文字「:-)」などを知っています。これらをTfidfVectorizerオブジェクトに追加して、オブジェクトを使用できるようにする方法、それを使用しfitpredict

to_include = [":-)", ":-P"]
method = TfidfVectorizer(max_features=20000, ngram_range=(1, 3),
                      # I know stopwords, but how about include words?
                      stop_words=test.stoplist[:100], 
                      # include words ??
                      analyzer='word',
                      min_df=5)
method.fit(traindata)

求める結果:

X = method.transform(traindata)
X
<Nx20002 sparse matrix of type '<class 'numpy.int64'>'
 with 1135520 stored elements in Compressed Sparse Row format>], 
 where N is sample size
4

1 に答える 1