14

CountVectorizerのいくつかのドキュメントにを取り付けましたscikit-learn。ストップワードを選択するために、テキストコーパス内のすべての用語とそれに対応する頻度を確認したいと思います。例えば

'and' 123 times, 'to' 100 times, 'for' 90 times, ... and so on

このための組み込み関数はありますか?

4

2 に答える 2

23

cvがあなたでCountVectorizerXがベクトル化されたコーパスの場合、

zip(cv.get_feature_names(),
    np.asarray(X.sum(axis=0)).ravel())

が抽出(term, frequency)したコーパス内の個別の用語ごとにペアのリストを返します。CountVectorizer

(ちょっとしたasarray+ravelダンスは、 の癖を回避するために必要ですscipy.sparse。)

于 2013-04-18T09:01:36.987 に答える