txt ファイルを読み込んで、テキスト マイニング アプローチを実行したいと考えています。R で tm パッケージを使用したときに、大量のエラー メッセージが表示されました。たとえば、最も頻繁に使用される単語を関連付けたい場合は、NA のみを取得します。これまでに使用したコードは次のとおりです。
library(tm)
doc <- c("word1 word1 word2 word1 word2 word3 word1 word2 word3 word4 word1 word2 word3 word4 word5")
Corpus <- Corpus(VectorSource(doc))
Corpus <- tm_map(Corpus, stripWhitespace)
Corpus <- tm_map(Corpus, tolower)
Corpus <- tm_map(Corpus, removeWords, stopwords("english"))
Corpus <- tm_map(Corpus, removePunctuation)
tdm <- TermDocumentMatrix(Corpus)
#Plotting correlation of Terms
plot(tdm, terms = findFreqTerms(tdm, lowfreq = 2, Inf)[1:3], CorThreshold = 0.1)
その後、次のエラーメッセージが表示されました。
Error in if (all(from == t(from))) "undirected" else "directed":
missing value where TRUE/FALSE needed
調査のために、次のコードを使用しました。これは、findAssocs() の段階的なアプローチです。
terms <- findFreqTerms(tdm, lowfreq = 2)[1:3]
m <- as.matrix(t(tdm[terms,]))
m
cor(m)
ただし、次の出力が得られました。
word1 word2 word3
word1 NA NA NA
word2 NA NA NA
word3 NA NA NA
私の見解では、テキストに何か問題がありますが、この奇妙な動作については説明がありません。私の質問は、誰かがこの問題の解決策を持っているかどうかです。私の R (2.15.2) は Mac システム (x86_64-apple-darwin9.8.0/x86_64 (64 ビット)) で実行されています。
どうもありがとう!