2

Gensim python ツールキットを使用して、ドキュメントの tf-idf モデルを構築しています。そのため、最初にすべてのドキュメントの辞書を作成する必要があります。しかし、Gensim は辞書とコーパスを作成する前にステミングを使用していないことがわかりました。私は正しいですか?

4

2 に答える 2

3

あなたは正しいです。Gensim は、与えられたものを別のモデルに変換する以外に特別なことは何もしません。

関連する引用とその引用元のリンクは次のとおりです。

ドキュメントを処理する方法は非常に多様であり、アプリケーションや言語に依存しているため、インターフェイスによって制限しないことにしました。代わりに、ドキュメントは、「表面」の文字列形式ではなく、そこから抽出された機能によって表されます。機能に到達する方法はユーザー次第です。

文字列からベクトルへ

于 2013-02-01T00:35:31.173 に答える