dtm <- DocumentTermMatrix(reuters, control=list(wordLengths=c(1,Inf)))
私は dtm を用語 - 用語マトリックスに変換することを考えています。以下は正しくありません:
dtm <- dtm %*% t(dtm)
どのようにすればよいでしょうか?
dtm <- DocumentTermMatrix(reuters, control=list(wordLengths=c(1,Inf)))
私は dtm を用語 - 用語マトリックスに変換することを考えています。以下は正しくありません:
dtm <- dtm %*% t(dtm)
どのようにすればよいでしょうか?
文書用語マトリックスの構造を正しく理解していれば、それはt(dtm) %*% dtm
です。この回答を参照してください。
TDM <- TermDocumentMatrix(x) # Form a Term document matrix
termDocMatrix <- as.matrix(TDM) # convert your TDM into a matrix
termDocMatrix[termDocMatrix>=1] <- 1 # change the TDM into Boolean matrix
# term adjacency matrix
termMatrix <- termDocMatrix %*% t(termDocMatrix)
termMatrix[1:10,1:10] # inspect terms numbered 1 to 10