findAssoc()
テキストマイニング (パッケージ)を使用してきtm
ましたが、データセットに何か問題があることに気付きました。
私のデータセットは、csv ファイルの 1 列に保存された 1500 の自由回答です。だから私はこのようにデータセットを呼び出し、典型的なtm_map
ものを使ってコーパスにしました。
library(tm)
Q29 <- read.csv("favoritegame2.csv")
corpus <- Corpus(VectorSource(Q29$Q29))
corpus <- tm_map(corpus, tolower)
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, removeNumbers)
corpus<- tm_map(corpus, removeWords, stopwords("english"))
dtm<- DocumentTermMatrix(corpus)
findAssocs(dtm, "like", .2)
> cousin fill ....
0.28 0.20
Q1. に関連付けられている用語を見つけたときにlike
、出力が出力の一部として表示されませんlike = 1
。でも、
dtm.df <-as.data.frame(inspect(dtm))
このデータフレームは 1500 個の obs で構成されています。of 1689 変数..(データが csv ファイルの行に保存されているためですか?)
Q2. 対象語が 1 回出現したときにcousin
andが 1 回出現したにもかかわらず、このようにスコアが異なります。それらは同じであるべきではありませんか?fill
like
私は数学を見つけようとしていますfindAssoc()
が、まだ成功していません。どんなアドバイスでも大歓迎です!