r - tm DocumentTermMatrix に短いトークンを含める

Question

編集: これは、ワークスペース内のオブジェクトが競合し、予期しない動作を引き起こす問題でした。

次のコードを使用して、ドキュメントから DocumentTermMatrix を作成しようとしています。ドキュメントには、1 文字と 2 文字のトークンが多数含まれています。ただし、最小単語長が 1 文字に設定されている場合でも、結果のマトリックスには 699 のドキュメントと 0 の用語が含まれます。

library(tm)
data <- read.csv("http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data",header=FALSE)
data <- data[-1]

training_data <- as.vector(apply(as.matrix(data, mode="character"),1,paste,collapse=" "))
corpus <- Corpus(VectorSource(training_data))

matrix <- DocumentTermMatrix(corpus,control=list(wordLengths=c(1,Inf)))

データに 1 文字と 2 文字のトークンが多数あるにもかかわらず、トークンが作成されない理由を誰かが明らかにすることはできますか? 以下は、サンプルデータエントリの 1 つです。

" 4  8  8  5  4 5 10  4  1 4"

score 4 · Accepted Answer

Windows 7 マシンの最新バージョンの R と tm であなたがくれたものを正確に実行したところ、探していた結果が得られました (以下を参照)。ワークスペースをクリアして、R を終了したり、再起動したりしてみます。

> library(tm)
> data <- read.csv("http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data",header=FALSE)
> data <- data[-1]
> 
> training_data <- as.vector(apply(as.matrix(data, mode="character"),1,paste,collapse=" "))
> corpus <- Corpus(VectorSource(training_data))
> 
> matrix <- DocumentTermMatrix(corpus,control=list(wordLengths=c(1,Inf)))
> matrix
A document-term matrix (699 documents, 11 terms)

Non-/sparse entries: 2899/4790
Sparsity           : 62%
Maximal term length: 2 
Weighting          : term frequency (tf)

r - tm DocumentTermMatrix に短いトークンを含める

1 に答える 1

Related

Reference