DocumentTermMatrix(myCorpus, control=list(dictionary=myDict))
私はそれがはるかに多くのメモリを消費することに気づきましたDocumentTermMatrix(myCorpus)
なぜこうなった?
リードはありますか?
コードスニペットは次のとおりです。
library(tm)
library(XML)
source("MyXMLReader.r") # contains the myXML reader code
myCorpus <- Corpus(DirSource(paste(basepath,"corpus",sep=""))
readerControl = list(reader = myXMLReader))
myDict = unlist(readLines("some-file-containing-a-fixed-vocab"))
今ここに私の質問があります:
dtm = DocumentTermMatrix(mYCorpus) # takes very little extra RAM to do this
dtm = DocumentTermMatrix(myCorpus,control=list(dictionary=myDict)) # Takes a whole lot of # RAM` which is not even released after dtm is formed...
メモリリークとバグの可能性があると思います。