最近、私は NLP についてもっと読み始め、このテーマについてもっと学ぶために Python のチュートリアルに従っています。チュートリアルの 1 つに従っているときに、データを処理し、トレーニングと予測のために分類子にフィードする TfidfTransformer への入力として、各ツイート (CountVectorizer で作成) の単語数のスパース マトリックスを使用していることに気付きました。
pipeline = Pipeline([
('vect', CountVectorizer()),
('tfidf', TfidfTransformer()),
('clf', LogisticRegression())
])
説明がなかったので、この思考プロセスが理解できません... 普通の Bag of Words じゃないですか?これは、関数の 1 つだけ、たとえば Tfidf だけを使用して行うことはできませんか?
明確化をいただければ幸いです。