8

私はいくつかのテキストデータをモデル化するために scikit Learn でさまざまなバージョンの TFIDF を使用しました。

vectorizer = TfidfVectorizer(min_df=1,stop_words='english')

結果のデータ X は次の形式になります。

<rowsxcolumns sparse matrix of type '<type 'numpy.float64'>'
    with xyz stored elements in Compressed Sparse Row format>

疎行列の次元を減らす方法として、LDA を試してみたかったのです。NumPy スパース行列 X を gensim LDA モデルにフィードする簡単な方法はありますか?

lda = models.ldamodel.LdaModel(corpus=corpus, id2word=dictionary, num_topics=100)

私は scikit を無視して、gensim チュートリアルの概要に沿って進むことができますが、scikit ベクトライザーとそのすべてのパラメーターのシンプルさが気に入っています。

4

1 に答える 1

10

http://radimrehurek.com/gensim/matutils.html

class gensim.matutils.Sparse2Corpus(sparse, documents_columns=True)

      Convert a matrix in scipy.sparse format into a streaming gensim corpus.
于 2013-10-21T22:07:20.630 に答える