1

非常に大きなデータセットで topicmodels パッケージの LDA() を使用しようとしています。次のエラーを修正するためにすべてを試した後、「nr * nc : 整数オーバーフローによって生成された NA」および「入力行列の各行には、少なくとも 1 つのゼロ以外のエントリを含める必要があります」というエラーが発生しました。

ask<- read.csv('askreddit201508.csv', stringsAsFactors = F)    
myDtm <- create_matrix(as.vector(ask$title), language="english", removeNumbers=TRUE, stemWords=TRUE, weighting=weightTf)
myDtm2 = removeSparseTerms(myDtm,0.99999)
myDtm2 <- rollup(myDtm2, 2, na.rm=TRUE, FUN = sum)
rowTotals <- apply(myDtm2 , 1, sum)
myDtm2   <- myDtm2[rowTotals> 0, ]  
LDA2 <- LDA(myDtm2,100)

Error in LDA(myDtm2, 100) : 
  The DocumentTermMatrix needs to have a term frequency weighting
4

2 に答える 2