5

私はいくつかの研究のために潜在的ディリクレ分析を行っていますが、問題が発生し続けています。ほとんどのldaソフトウェアでは、ドキュメントがdoclines形式である必要があります。つまり、CSVまたはその他の区切られたファイルで、各行がドキュメント全体を表します。ただし、Bleiのlda-cおよび動的トピックモデルソフトウェアでは、データが次の形式である必要があります。[M] [term_1]:[count] [term_2]:[count] ... [term_N]:[count]ここ[M]で、はドキュメント内の一意の用語の数であり、各用語に関連付けられた[count]は、その用語がドキュメントに出現した回数です。[term_1]これは、用語のインデックスとなる整数であることに注意してください。文字列ではありません。

この形式にすばやく変換できるユーティリティを知っている人はいますか?ありがとうございました。

4

4 に答える 4

3

を使用している場合R、パッケージには生のテキストをパッケージに必要な lda-c 形式に変換するlda関数が含まれています。lexicalizelda

example <- c("I am the very model of a modern major general",
             "I have a major headache")

corpus <- lexicalize(example, lower=TRUE) 

同様に、このtopicmodelsパッケージにはdtm2ldaformat、ドキュメント ターム マトリックスを LDA 形式に変換する関数があります。tmパッケージを使用して、プレーン テキスト ドキュメントをドキュメント ターム マトリックスに変換することもできますR

Rしたがって、これらの既存の関数を使用すると、トピック モデリングのためにテキストを取り込む際に多くの柔軟性が得られます。

于 2012-12-07T01:39:46.293 に答える
2

マサチューセッツ大学アマースト校のマレットパッケージは別のオプションです。

そして、これがマレットの使い方に関する優れたステップバイステップのデモです。

入力ソースとして通常のテキストファイルだけでマレットを使用できます。

于 2013-02-25T08:52:47.750 に答える
1

Gensim は Blei のコーパス形式の実装を提供します。ここを参照してください。PythonでCSV ファイルに基づいて簡単なコーパスを作成し、それを gensim を使用して lda-c に保存できます。難しすぎてはいけません。

于 2013-01-04T15:29:20.633 に答える