python - scikit CountVectorizer で語彙を選択する方法

Question

scikit CountVectorizerを使用して、ドキュメントのコレクションをトークン数のマトリックスに変換しました。また、その max_features を使用しました。これは、コーパス全体で用語の頻度によって並べ替えられた上位の max_features を考慮します。

ここで、選択したコーパスを分析したいと思います。特に、選択した語彙のトークンの頻度を知りたいです。しかし、私はそれを行う簡単な方法を見つけることができません。この点で親切に私を助けてください。

score 1 · Accepted Answer

呼び出すとfit_transform()、疎行列が返されます。

それを表示するには、 toarray() メソッドを呼び出すだけです。

vec = CountVectorizer()
spars_mat = vec.fit_transform(['toto titi', 'toto toto', 'titi tata'])

#you can observer the matrix in the interpretor by doing
spars_mat.toarray()

python - scikit CountVectorizer で語彙を選択する方法

2 に答える 2

Related

Reference