テキストマイニングをしましょう
tm
ここでは、(パッケージからの)ドキュメント用語マトリックスを使用しています。
dtm <- TermDocumentMatrix(
myCorpus,
control = list(
weight = weightTfIdf,
tolower=TRUE,
removeNumbers = TRUE,
minWordLength = 2,
removePunctuation = TRUE,
stopwords=stopwords("german")
))
私がするとき
typeof(dtm)
それは「リスト」であり、構造は次のようになります。
Docs
Terms 1 2 ...
lorem 0 0 ...
ipsum 0 0 ...
... .......
だから私は試してみます
wordMatrix = as.data.frame( t(as.matrix( dtm )) )
これは1000ドキュメントで機能します。
しかし、私が40000を使おうとすると、もう使いません。
このエラーが発生します:
Fehler in vector(typeof(x$v), nr * nc) : Vektorgröße kann nicht NA sein
Zusätzlich: Warnmeldung:
In nr * nc : NAs durch Ganzzahlüberlauf erzeugt
ベクトルのエラー...:ベクトルをNAにすることはできません追加:整数のオーバーフローによって作成されたnr * ncNA
そこで、as.matrixを調べたところ、関数がそれを行列ではなくas.vectorを使用したベクトルに変換していることがわかりました。ベクトルへの変換は機能しますが、ベクトルからマトリックスへの変換は機能しません。
何が問題になるのか、何か提案はありますか?
ありがとう、キャプテン