私はいくつかのテキストデータをモデル化するために scikit Learn でさまざまなバージョンの TFIDF を使用しました。
vectorizer = TfidfVectorizer(min_df=1,stop_words='english')
結果のデータ X は次の形式になります。
<rowsxcolumns sparse matrix of type '<type 'numpy.float64'>'
with xyz stored elements in Compressed Sparse Row format>
疎行列の次元を減らす方法として、LDA を試してみたかったのです。NumPy スパース行列 X を gensim LDA モデルにフィードする簡単な方法はありますか?
lda = models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=100)
私は scikit を無視して、gensim チュートリアルの概要に沿って進むことができますが、scikit ベクトライザーとそのすべてのパラメーターのシンプルさが気に入っています。