findAssoc()テキストマイニング (パッケージ)を使用してきtmましたが、データセットに何か問題があることに気付きました。
私のデータセットは、csv ファイルの 1 列に保存された 1500 の自由回答です。だから私はこのようにデータセットを呼び出し、典型的なtm_mapものを使ってコーパスにしました。
library(tm)
Q29 <- read.csv("favoritegame2.csv")
corpus <- Corpus(VectorSource(Q29$Q29))
corpus <- tm_map(corpus, tolower)
corpus <- tm_map(corpus, removePunctuation)
corpus <- tm_map(corpus, removeNumbers)
corpus<- tm_map(corpus, removeWords, stopwords("english"))
dtm<- DocumentTermMatrix(corpus)
findAssocs(dtm, "like", .2)
> cousin fill ....
0.28 0.20
Q1. に関連付けられている用語を見つけたときにlike、出力が出力の一部として表示されませんlike = 1。でも、
dtm.df <-as.data.frame(inspect(dtm))
このデータフレームは 1500 個の obs で構成されています。of 1689 変数..(データが csv ファイルの行に保存されているためですか?)
Q2. 対象語が 1 回出現したときにcousinandが 1 回出現したにもかかわらず、このようにスコアが異なります。それらは同じであるべきではありませんか?filllike
私は数学を見つけようとしていますfindAssoc()が、まだ成功していません。どんなアドバイスでも大歓迎です!