2

このtopicmodelsパッケージを使用して、R で LDA モデルを作成しています。

require(tm)
require(topicmodels)

textvector <- c("this is one sentence", "this is another one",
                         "a third sentence appears") 
                         #and more, read in through a file
dtm <- DocumentTermMatrix(Corpus(VectorSource(textvector)))
lda.model <- LDA(dtm, 5)

しかし、それがドキュメントを受け入れる唯一の方法は、実際の文字通りのドキュメントとしてです。周波数のマップを提供する方法があるかどうか疑問に思っていました

[word1: 4, word2: 9,  word3: 25, word5:3...]

これは明らかにRの「マップ」ではありませんが、単語の頻度からトピックモデルを作成できるデータ構造(データフレーム、テーブル、ベクトルのリスト)表現ですか?

これが必要な理由は、トピック モデルが「ドキュメント」や「単語」自体で作成されているのではなく、画像の類似した機能であり、長い形式の表現にはあまりにも多くのスペースが必要だからです。

4

1 に答える 1

0

doc-term マトリックスを作成するために tm の呼び出しを使用する必要はありません。「ドキュメント」が行にあり、構成要素の「単語」が列にある限り、独自に作成して送信できます。ただし、LDA はどのドキュメントにどの単語が出現するかを知ることに依存しているため、表に頻度カウントを単純に指定することはできません。

于 2014-01-03T18:28:44.217 に答える