0

次のようなフレーズを含むデータの CSV ファイルがあります。

dd<-c("hello how are you?";"I am fine"; "hello how are you?"; "not too bad")

ワードクラウドを使用して、文の各ブロック ( で割ったもの) の頻度を取得したいと考えています;。ただし、得られるのは単語あたりの頻度です。

各セルのコンテンツ ブロックごとの頻度を取得する方法はありますか?

このおもちゃの例では、次のようになります。

Text                   Freq 
----------------------------
hello how are you?     2

I am fine              1

not too bad            1

事前にどうもありがとうございました

4

1 に答える 1

0

FWIW、これを試してください

library(wordcloud)
library(tm)
txt <- c("hello how are you? I am fine", "hello how are you?; not too bad")
semicolonTonekizer <- function(x) unlist(strsplit(as.character(x), ";", fixed = TRUE))
tdm <- TermDocumentMatrix(Corpus(VectorSource(txt)), list(tokenize = semicolonTonekizer))
tab <- rowSums(as.matrix(tdm))
wordcloud(names(tab), tab)
于 2015-04-29T13:56:33.700 に答える