このtopicmodels
パッケージを使用して、R で LDA モデルを作成しています。
require(tm)
require(topicmodels)
textvector <- c("this is one sentence", "this is another one",
"a third sentence appears")
#and more, read in through a file
dtm <- DocumentTermMatrix(Corpus(VectorSource(textvector)))
lda.model <- LDA(dtm, 5)
しかし、それがドキュメントを受け入れる唯一の方法は、実際の文字通りのドキュメントとしてです。周波数のマップを提供する方法があるかどうか疑問に思っていました
[word1: 4, word2: 9, word3: 25, word5:3...]
これは明らかにRの「マップ」ではありませんが、単語の頻度からトピックモデルを作成できるデータ構造(データフレーム、テーブル、ベクトルのリスト)表現ですか?
これが必要な理由は、トピック モデルが「ドキュメント」や「単語」自体で作成されているのではなく、画像の類似した機能であり、長い形式の表現にはあまりにも多くのスペースが必要だからです。