0

これが私のコードです:例1:

a <- c("ab cd de","ENERGIZER A23 12V ALKALINE BATTERi")
a1 <- VCorpus(VectorSource(a))
a2 <- TermDocumentMatrix(a1,control = list(stemming=T))
inspect(a2)

結果は次のとおりです。

         Docs
Terms     1 2
  12v     0 1
  a23     0 1
  alkalin 0 1
  batteri 0 1
  energ   0 1

a の最初の文字列が無視されているようです。

例 2

a <- c("abcd cde de","ENERGIZER A23 12V ALKALINE BATTERi")
a1 <- VCorpus(VectorSource(a))
a2 <- TermDocumentMatrix(a1,control = list(stemming=T))
inspect(a2)

結果は次のとおりです。

         Docs
Terms     1 2
  12v     0 1
  a23     0 1
  abcd    1 0
  alkalin 0 1
  batteri 0 1
  cde     1 0
  energ   0 1

2 つの部分文字列 (abcd、cde) が保持されているのに対し、最も端にある文字列 (de) はまだ欠落していることがわかります。control = list(stemming=T) を使用しない場合も状況は同じです。それで、これがtmの一種の定義であるかどうか、私は興味がありますか? 3文字未満の場合、文字列は無視されますか? これは良い考えではないと思います。文字列は、略語のように短くても役に立つ可能性が非常に高いです。

もしそうなら、これを変更できるパラメーターまたは何かがありますか? どうもありがとう。

4

1 に答える 1