8

次の2つのDTMがあります。

dtm <- DocumentTermMatrix(t)

dtmImproved <- DocumentTermMatrix(t, 
               control=list(minWordLength = 4, minDocFreq=5))

これを実装すると、2つの等しいDTMが表示され、を開くとdtmImproved、3つの記号が付いた単語が表示されます。minWordLengthパラメータが機能しないのはなぜですか?ありがとうございました!

> dtm
A document-term matrix (591 documents, 10533 terms)

Non-/sparse entries: 43058/6181945
Sparsity           : 99%
Maximal term length: 135 
Weighting          : term frequency (tf)
> dtmImproved
A document-term matrix (591 documents, 10533 terms)

Non-/sparse entries: 43058/6181945
Sparsity           : 99%
Maximal term length: 135 
Weighting          : term frequency (tf)
4

2 に答える 2

25
dtmImproved <- DocumentTermMatrix(t, control=list(wordLengths=c(4, 15), 
                                   bounds = list(global = c(5,Inf))))

これで問題は解決します!適切なドキュメントの欠如は本当に私を怒らせます(:

于 2012-11-13T23:45:19.610 に答える