nlp - トピックモデリングのために、1行に1つのドキュメントをBleiのlda-c / dtm形式に変換しますか？

Question

私はいくつかの研究のために潜在的ディリクレ分析を行っていますが、問題が発生し続けています。ほとんどのldaソフトウェアでは、ドキュメントがdoclines形式である必要があります。つまり、CSVまたはその他の区切られたファイルで、各行がドキュメント全体を表します。ただし、Bleiのlda-cおよび動的トピックモデルソフトウェアでは、データが次の形式である必要があります。[M] [term_1]:[count] [term_2]:[count] ... [term_N]:[count]ここ[M]で、はドキュメント内の一意の用語の数であり、各用語に関連付けられた[count]は、その用語がドキュメントに出現した回数です。[term_1]これは、用語のインデックスとなる整数であることに注意してください。文字列ではありません。

この形式にすばやく変換できるユーティリティを知っている人はいますか？ありがとうございました。

score 3 · Accepted Answer

を使用している場合R、パッケージには生のテキストをパッケージに必要な lda-c 形式に変換するlda関数が含まれています。lexicalizelda

example <- c("I am the very model of a modern major general",
             "I have a major headache")

corpus <- lexicalize(example, lower=TRUE)

同様に、このtopicmodelsパッケージにはdtm2ldaformat、ドキュメントタームマトリックスを LDA 形式に変換する関数があります。tmパッケージを使用して、プレーンテキストドキュメントをドキュメントタームマトリックスに変換することもできますR。

Rしたがって、これらの既存の関数を使用すると、トピックモデリングのためにテキストを取り込む際に多くの柔軟性が得られます。

score 2 · Accepted Answer

マサチューセッツ大学アマースト校のマレットパッケージは別のオプションです。

そして、これがマレットの使い方に関する優れたステップバイステップのデモです。

http://programminghistorian.org/lessons/topic-modeling-and-mallet

入力ソースとして通常のテキストファイルだけでマレットを使用できます。

score 1 · Accepted Answer

Gensim は Blei のコーパス形式の実装を提供します。ここを参照してください。PythonでCSV ファイルに基づいて簡単なコーパスを作成し、それを gensim を使用して lda-c に保存できます。難しすぎてはいけません。

nlp - トピックモデリングのために、1行に1つのドキュメントをBleiのlda-c / dtm形式に変換しますか？

4 に答える 4

Related

Reference