r - TermDocumentMatrix の作成: ドキュメント数の問題

Question

約 300 万行以上のテキストファイルを使用して用語ドキュメントマトリックスを作成しようとしています。テキストのランダムサンプルを作成したところ、約 300,000 行になりました。

残念ながら、次のコードを使用すると、最終的に 300,000 個のドキュメントになります。各バイグラムの頻度を含む 1 つのドキュメントが必要です。

library(RWeka)
library(tm)

corpus <- readLines("myfile")
numberLinesCorpus <- 3000000
corpus_sample <- text_corpus[sample(1:numberLinesCorpus, numberLinesCorpus*.1, replace = FALSE)]
myCorpus <- Corpus(VectorSource(corpus_sample))
BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 1, max = 2))
tdm <- TermDocumentMatrix(myCorpus, control = list(tokenize = BigramTokenizer))

サンプルには、約 300,000 行が含まれています。ただし、tdm のドキュメント数も 300,000 です。

どんな助けでも大歓迎です。

score 1 · Accepted Answer

ベクターでpaste関数を使用する必要があります。corpus_sample

値が設定された貼り付けは、collapse多くのテキスト要素を持つベクトルを取得し、指定した文字列で要素が区切られた 1 つのテキスト要素を持つベクトルに変換します。

text <- c('a', 'b', 'c')
text <- paste(text, collapse = " ")
text
# [1] "a b c"

score 0 · Accepted Answer

quantedaの代わりにパッケージを使用することもできますtm。を作成した後、次の手順で必要なことを行いますcorpus_sample。

require(quanteda)
myDfm <- dfm(corpus_sample, ngrams = 2)
bigramTotals <- colSums(myDfm)

また、速くなると思います。

r - TermDocumentMatrix の作成: ドキュメント数の問題

2 に答える 2

Related

Reference