私は自分の文書を次のように持っています:
doc1 = very good, very bad, you are great
doc2 = very bad, good restaurent, nice place to visit
,
最終的に次のようになるように、コーパスを分離したいと思いDocumentTermMatrix
ます。
terms
docs very good very bad you are great good restaurent nice place to visit
doc1 tf-idf tf-idf tf-idf 0 0
doc2 0 tf-idf 0 tf-idf tf-idf
個々の単語の計算方法は知っていますが、RDocumentTermMatrix
でコーパスを作成する方法がわかりません。separated for each phrase
R
Python
私が試したことは次のとおりです。
> library(tm)
> library(RWeka)
> BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 1, max = 3))
> options(mc.cores=1)
> texts <- c("very good, very bad, you are great","very bad, good restaurent, nice place to visit")
> corpus <- Corpus(VectorSource(texts))
> a <- TermDocumentMatrix(corpus, control = list(tokenize = BigramTokenizer))
> as.matrix(a)
私は得ています:
Docs
Terms 1 2
bad good restaurent 0 1
bad you are 1 0
good restaurent nice 0 1
good very bad 1 0
nice place to 0 1
place to visit 0 1
restaurent nice place 0 1
very bad good 0 1
very bad you 1 0
very good very 1 0
you are great 1 0
私が欲しいのは単語の組み合わせではなく、マトリックスで示したフレーズだけです。