編集: これは、ワークスペース内のオブジェクトが競合し、予期しない動作を引き起こす問題でした。
次のコードを使用して、ドキュメントから DocumentTermMatrix を作成しようとしています。ドキュメントには、1 文字と 2 文字のトークンが多数含まれています。ただし、最小単語長が 1 文字に設定されている場合でも、結果のマトリックスには 699 のドキュメントと 0 の用語が含まれます。
library(tm)
data <- read.csv("http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data",header=FALSE)
data <- data[-1]
training_data <- as.vector(apply(as.matrix(data, mode="character"),1,paste,collapse=" "))
corpus <- Corpus(VectorSource(training_data))
matrix <- DocumentTermMatrix(corpus,control=list(wordLengths=c(1,Inf)))
データに 1 文字と 2 文字のトークンが多数あるにもかかわらず、トークンが作成されない理由を誰かが明らかにすることはできますか? 以下は、サンプル データ エントリの 1 つです。
" 4 8 8 5 4 5 10 4 1 4"