約 300 万行以上のテキスト ファイルを使用して用語ドキュメント マトリックスを作成しようとしています。テキストのランダム サンプルを作成したところ、約 300,000 行になりました。
残念ながら、次のコードを使用すると、最終的に 300,000 個のドキュメントになります。各バイグラムの頻度を含む 1 つのドキュメントが必要です。
library(RWeka)
library(tm)
corpus <- readLines("myfile")
numberLinesCorpus <- 3000000
corpus_sample <- text_corpus[sample(1:numberLinesCorpus, numberLinesCorpus*.1, replace = FALSE)]
myCorpus <- Corpus(VectorSource(corpus_sample))
BigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 1, max = 2))
tdm <- TermDocumentMatrix(myCorpus, control = list(tokenize = BigramTokenizer))
サンプルには、約 300,000 行が含まれています。ただし、tdm のドキュメント数も 300,000 です。
どんな助けでも大歓迎です。