r - R - プリコードされたトレーニングセットを LDA モデルに組み込む

翻译自：https://stackoverflow.com/questions/47037443 2017-10-31T14:09:44.770

186 次

topicmodels パッケージの LDA 関数を使用して、調査した質問のリストを 30 の異なるカテゴリに割り当てようとしています。

私がこれまでに持っているコードは次のとおりです。

source <- VectorSource(openended$q2)
corpus <- Corpus(source)

corpus <- tm_map(corpus, content_transformer(tolower))
corpus <- tm_map(corpus, removeNumbers)
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, stripWhitespace)
corpus <- tm_map(corpus, removeWords, stopwords('english'))
corpus <- tm_map(corpus, stemDocument, language = "english")

mat <- DocumentTermMatrix(corpus)
rowTotals <- apply(mat , 1, sum) 
mat <- mat[rowTotals> 0, ]

burnin <- 4000
iter <- 2000
thin <- 500
seed <-list(2003,5,63,100001,765)
nstart <- 5
best <- TRUE

k <- 30

ldaOut <-LDA(mat,k, method="Gibbs", control=list(nstart=nstart, seed = seed, 
best=best, burnin = burnin, iter = iter, thin=thin))
ldaOut.topics <- as.matrix(topics(ldaOut))
write.csv(ldaOut.topics,file=paste("LDAGibbs",k,"DocsToTopics.csv"))

openended$q2 のデータの 10% が適切にコーディングされていますが、そのデータを使用してアルゴリズムをトレーニングするにはどうすればよいですか?

ありがとう！

r - R - プリコードされたトレーニング セットを LDA モデルに組み込む

0 に答える 0

Related

Reference

r - R - プリコードされたトレーニングセットを LDA モデルに組み込む