私はRのtm
パッケージを使用しており、分類の問題で多くの成功を収めています。コーパス全体で最も頻繁に使用される用語を見つける方法は知っていますが ( を使用findFreqTerms()
)、最も頻繁に使用される用語を見つける方法はドキュメント内にありません (ストップワードをステミングして削除した後、まばらな用語を削除する前に)コーパス内の個々のドキュメント内。apply()
とコマンドを使用してみましmax
たが、これにより、用語自体の名前ではなく、各ドキュメント内の用語の最大回数が得られます。
library(tm)
data("crude")
corpus<-tm_map(crude, removePunctuation)
corpus<-tm_map(corpus, stripWhitespace)
corpus<-tm_map(corpus, tolower)
corpus<-tm_map(corpus, removeWords, stopwords("English"))
corpus<-tm_map(corpus, stemDocument)
dtm <- DocumentTermMatrix(corpus)
maxterms<-apply(dtm, 1, max)
maxterms
127 144 191 194 211 236 237 242 246 248 273 349 352
5 13 2 3 3 10 8 3 7 9 9 4 5
353 368 489 502 543 704 708
4 4 4 5 5 9 4
考え?