r - コーパスの単語数

Question

テキストで最も頻繁に使用される単語を見つける方法を探しており、R を使用しています。最も頻繁に使用しているのは、頻度が低い単語がコーパス内の単語の 1% であることを意味します。そのため、コーパス内の単語数を計算する必要があります。

これまでのところ、私のコードは次のとおりです。

#!/usr/bin/Rscript
library('tm')
library('wordcloud')
library('RColorBrewer')
twittercorpus <- system.file("stream","~/txt", package = "tm")
twittercorpus <- Corpus(DirSource("~/txt"),
                        readerControl=list(languageEl = "en"))
twittercorpus <- tm_map(twittercorpus, removeNumbers)
twittercorpus <- tm_map(twittercorpus,tolower)
twittercorpus <- tm_map(twittercorpus,removePunctuation)
my_stopwords <- c(stopwords("SMART"))
twittercorpus <-tm_map(twittercorpus,removeWords,my_stopwords)
mydata.dtm <- TermDocumentMatrix(twittercorpus)

次のようなものが必要です：

freqmatrix <-findFreqTerms(mydata.dtm, lowfreq=rowSums(mydata.dtm)/100)

score 7 · Accepted Answer

str(mydata.dtm)という名前のコンポーネントがありますnrow。それを使用します：

freqmatrix <- findFreqTerms(mydata.dtm, lowfreq=mydata.dtm$nrow/100)

r - コーパスの単語数

1 に答える 1

Related

Reference