7

私は、scikit の tfidf ベクトライザーを使用して取得した csr_matrix として X と、配列である y を持っています。

私の計画は LDA を使用して機能を作成することですが、X を csr_matrix として使用して gensim のコーパス変数を初期化する方法を見つけることができませんでした。つまり、大量のメモリを消費し、コンピューターがハングする可能性があるため、gensim のドキュメントに示されているようにコーパスをダウンロードしたり、X を密行列に変換したりしたくありません。

要するに、私の質問は次のとおりです。

  1. コーパス全体を表す csr_matrix (スパース) がある場合、gensim コーパスをどのように初期化しますか?
  2. LDA をどのように使用して特徴を抽出しますか?
4

1 に答える 1

9

Gensimには、これを行うことができる半よく隠された機能があります。

http://radimrehurek.com/gensim/matutils.html#gensim.matutils.Sparse2Corpus

"class gensim.matutils.Sparse2Corpus(sparse, documents_columns=True) scipy.sparse 形式の行列をストリーミング gensim コーパスに変換します。"

CountVectorizer で抽出し、gensim にロードしたコーパスを使用して、いくつかの成功を収めました。

于 2013-03-28T23:27:52.110 に答える