問題タブ [term-document-matrix]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - それぞれがリスト形式になっているドキュメントのリストからドキュメント用語マトリックスを構築する
ドキュメントのリストをドキュメントと用語のマトリックスに変換するエレガントな方法が存在するかどうか疑問に思います。これを行う動機は、ドキュメントの用語を微妙に変換する必要があるためです。つまり、ステミングです。入力データは次のようになります
出力データは、行列または numpy.array に簡単に変換できるデータ型である必要があります。と同じように:
私が今持っているのは、外側のリストのすべての要素を結合してから in を使用することCountVectorizer
ですsklearn.feature_extraction.text
。しかし、大規模なコーパスに対してそれを行うのは非効率的です。
助言がありますか?ありがとうございました。