私は、scikit の tfidf ベクトライザーを使用して取得した csr_matrix として X と、配列である y を持っています。
私の計画は LDA を使用して機能を作成することですが、X を csr_matrix として使用して gensim のコーパス変数を初期化する方法を見つけることができませんでした。つまり、大量のメモリを消費し、コンピューターがハングする可能性があるため、gensim のドキュメントに示されているようにコーパスをダウンロードしたり、X を密行列に変換したりしたくありません。
要するに、私の質問は次のとおりです。
- コーパス全体を表す csr_matrix (スパース) がある場合、gensim コーパスをどのように初期化しますか?
- LDA をどのように使用して特徴を抽出しますか?