次の例は、Sklearn 20 ニュースグループ データを使用して分類器をトレーニングする方法を示しています。
>>> from sklearn.feature_extraction.text import TfidfVectorizer
>>> categories = ['alt.atheism', 'talk.religion.misc', 'comp.graphics', 'sci.space']
>>> newsgroups_train = fetch_20newsgroups(subset='train', ... categories=categories)
>>> vectorizer = TfidfVectorizer() >>> vectors = vectorizer.fit_transform(newsgroups_train.data)
>>> vectors.shape (2034, 34118)
ただし、使用したい独自のラベル付きコーパスがあります。
自分のデータの tfidfvector を取得した後、このような分類器をトレーニングしますか?
classif_nb = nltk.NaiveBayesClassifier.train(vectorizer)
要約すると、20 個のニュースグループの代わりに自分のコーパスを使用するにはどうすればよいでしょうか。次に、TFIDFVectorized コーパスを使用して分類器をトレーニングするにはどうすればよいですか?
ありがとう!