2

最近、私は NLP についてもっと読み始め、このテーマについてもっと学ぶために Python のチュートリアルに従っています。チュートリアルの 1 つに従っているときに、データを処理し、トレーニングと予測のために分類子にフィードする TfidfTransformer への入力として、各ツイート (CountVectorizer で作成) の単語数のスパース マトリックスを使用していることに気付きました。

pipeline = Pipeline([
     ('vect', CountVectorizer()),
     ('tfidf', TfidfTransformer()),
     ('clf', LogisticRegression())
])

説明がなかったので、この思考プロセスが理解できません... 普通の Bag of Words じゃないですか?これは、関数の 1 つだけ、たとえば Tfidf だけを使用して行うことはできませんか?

明確化をいただければ幸いです。

4

1 に答える 1