1

R で Term Document Matrix を作成しましたが、いくつかの用語の名前を変更したいと考えています。

たとえば、ここ

vector <- "This is a test."

library(tm)

doc.vec <- VectorSource(vector)
doc.corpus <- Corpus(doc.vec)

TDM <- TermDocumentMatrix(doc.corpus)

TDM マトリックスを調べると、次のように出力されます

    Docs
    Terms   1
    test. 1
    this  1

ここで、たとえば「test」という名前に変更したいと思います。「何でも」に。その理由は、テキストをマイニングすると、明らかに一緒に属する「ビッグデータ」のような単語があるからです。最初のステップでは、gsub を使用して「ビッグデータ」を「ビッグデータ」に置き換えます。ただし、最終的には、出力を「ビッグデータ」にしたいと考えています。

事前に助けてください。

4

1 に答える 1

1

最初の質問に答えるのではなく、あなたのニーズが何であるかに対処する1つのアプローチを次に示します。

vector <- "This is a test.  I use big data.  That's George Washington!"

library(tm)
library(qdap)

vector2 <- space_fill(vector, c("big data", "George Washington"))

doc.vec <- VectorSource(vector2)
doc.corpus <- Corpus(doc.vec)

TDM <- TermDocumentMatrix(doc.corpus)
rownames(TDM) <- gsub("~~", " ", rownames(TDM))
inspect(TDM)

                    Docs
Terms                1
  big data.          1
  george washington! 1
  test.              1
  that's             1
  this               1
  use                1
于 2014-08-22T13:39:01.020 に答える