1

txt ファイルを読み込んで、テキスト マイニング アプローチを実行したいと考えています。R で tm パッケージを使用したときに、大量のエラー メッセージが表示されました。たとえば、最も頻繁に使用される単語を関連付けたい場合は、NA のみを取得します。これまでに使用したコードは次のとおりです。

library(tm)

doc <- c("word1 word1 word2 word1 word2 word3 word1 word2 word3 word4 word1 word2 word3 word4 word5")

Corpus <- Corpus(VectorSource(doc))
Corpus <- tm_map(Corpus, stripWhitespace)
Corpus <- tm_map(Corpus, tolower)
Corpus <- tm_map(Corpus, removeWords, stopwords("english"))
Corpus <- tm_map(Corpus, removePunctuation)

tdm <- TermDocumentMatrix(Corpus)

#Plotting correlation of Terms
plot(tdm, terms = findFreqTerms(tdm, lowfreq = 2, Inf)[1:3], CorThreshold = 0.1)

その後、次のエラーメッセージが表示されました。

Error in if (all(from == t(from))) "undirected" else "directed":
missing value where TRUE/FALSE needed

調査のために、次のコードを使用しました。これは、findAssocs() の段階的なアプローチです。

terms <- findFreqTerms(tdm, lowfreq = 2)[1:3]
m <- as.matrix(t(tdm[terms,]))
m
cor(m)

ただし、次の出力が得られました。

          word1 word2 word3
    word1    NA    NA    NA
    word2    NA    NA    NA
    word3    NA    NA    NA

私の見解では、テキストに何か問題がありますが、この奇妙な動作については説明がありません。私の質問は、誰かがこの問題の解決策を持っているかどうかです。私の R (2.15.2) は Mac システム (x86_64-apple-darwin9.8.0/x86_64 (64 ビット)) で実行されています。

どうもありがとう!

4

1 に答える 1