ドキュメントのリストをドキュメントと用語のマトリックスに変換するエレガントな方法が存在するかどうか疑問に思います。これを行う動機は、ドキュメントの用語を微妙に変換する必要があるためです。つまり、ステミングです。入力データは次のようになります
[['tom','want','apple'],['tom','love','pear']]
出力データは、行列または numpy.array に簡単に変換できるデータ型である必要があります。と同じように:
[[1,1,1,0,0],[1,0,0,1,1]]
私が今持っているのは、外側のリストのすべての要素を結合してから in を使用することCountVectorizer
ですsklearn.feature_extraction.text
。しかし、大規模なコーパスに対してそれを行うのは非効率的です。
助言がありますか?ありがとうございました。