Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
Gensim python ツールキットを使用して、ドキュメントの tf-idf モデルを構築しています。そのため、最初にすべてのドキュメントの辞書を作成する必要があります。しかし、Gensim は辞書とコーパスを作成する前にステミングを使用していないことがわかりました。私は正しいですか?
あなたは正しいです。Gensim は、与えられたものを別のモデルに変換する以外に特別なことは何もしません。
関連する引用とその引用元のリンクは次のとおりです。
ドキュメントを処理する方法は非常に多様であり、アプリケーションや言語に依存しているため、インターフェイスによって制限しないことにしました。代わりに、ドキュメントは、「表面」の文字列形式ではなく、そこから抽出された機能によって表されます。機能に到達する方法はユーザー次第です。
文字列からベクトルへ