これが私のコードです:例1:
a <- c("ab cd de","ENERGIZER A23 12V ALKALINE BATTERi")
a1 <- VCorpus(VectorSource(a))
a2 <- TermDocumentMatrix(a1,control = list(stemming=T))
inspect(a2)
結果は次のとおりです。
Docs
Terms 1 2
12v 0 1
a23 0 1
alkalin 0 1
batteri 0 1
energ 0 1
a の最初の文字列が無視されているようです。
例 2
a <- c("abcd cde de","ENERGIZER A23 12V ALKALINE BATTERi")
a1 <- VCorpus(VectorSource(a))
a2 <- TermDocumentMatrix(a1,control = list(stemming=T))
inspect(a2)
結果は次のとおりです。
Docs
Terms 1 2
12v 0 1
a23 0 1
abcd 1 0
alkalin 0 1
batteri 0 1
cde 1 0
energ 0 1
2 つの部分文字列 (abcd、cde) が保持されているのに対し、最も端にある文字列 (de) はまだ欠落していることがわかります。control = list(stemming=T) を使用しない場合も状況は同じです。それで、これがtmの一種の定義であるかどうか、私は興味がありますか? 3文字未満の場合、文字列は無視されますか? これは良い考えではないと思います。文字列は、略語のように短くても役に立つ可能性が非常に高いです。
もしそうなら、これを変更できるパラメーターまたは何かがありますか? どうもありがとう。