私はRに非常に慣れていないので、DocumentTermMatrixsに頭を悩ませることはできません。TMパッケージで作成されたDocumentTermMatrixがあり、その中に用語頻度と用語がありますが、それらにアクセスする方法がわかりません。
理想的には、私はしたい:
Term #
"the" 200
"is" 400
"a" 200
現在、私のコードは次のとおりです。
library(tm)
common.words <- c("amp","@RT","I","http","https", stopwords("english"), "you")
x <- Corpus(VectorSource(results))
x <- tm_map(x, stripWhitespace)
x <- tm_map(x, removeNumbers)
x <- tm_map(x, removePunctuation)
x <- tm_map(x, stripWhitespace)
dtm <- DocumentTermMatrix(x)
for(i in 1:length(common.words)) {
dtm <- dtm[,!colnames(dtm)%in%c(common.words[i])]
}
これはstr(dtm)からの出力です
List of 6
$ i : int [1:9769] 1 1 1 1 1 1 1 1 2 2 ...
$ j : int [1:9769] 1596 1684 1858 2112 2175 2490 2714 2814 873 961 ...
$ v : num [1:9769] 1 1 2 1 1 2 1 1 1 1 ...
$ nrow : int 1477
$ ncol : int 3201
$ dimnames:List of 2
..$ Docs : chr [1:1477] "1" "2" "3" "4" ...
..$ Terms: chr [1:3201] "\u0093\u0085a" "aardvark" "aaron" "abbie" ...
- attr(*, "class")= chr [1:2] "DocumentTermMatrix" "simple_triplet_matrix"
- attr(*, "Weighting")= chr [1:2] "term frequency" "tf"
ありがとうございました、
-A