0

実行したい次の行があります。

tdm_english <- DocumentTermMatrix(doc.corpus, list(dictionary = dictionary_english))

doc.corpus の長さは 191,000 で、dictionary_english は 48 です

私はこのコーパスの 3/4 サイズのコーパスでまったく同じ行を実行し、すべてが数分 (おそらく 5 分もかからない) でスムーズに実行されます。

今、この関数は私の MacBook Pro をクラッシュさせます。私はそれを 2 回実行しましたが、どちらの場合も、1 時間以上の計算の後、R と RStudio を強制終了する必要がありました。

通話を最適化する方法はありますか?

4

2 に答える 2

2

TermDocumentMatrix代わりに使用することで問題を回避しましたが、DocumentTermMatrixそれは明らかに大きなデータセットでより安定しています。

更新:私もそれを動作させましたDocumentTermMatrix。DWinが指摘したように、問題DocumentTermMatrixはメモリが飽くなきものだったようです。vapplyでなんとか食欲を抑えました。200k レコードでテストしたところ、システム全体を麻痺させることなくジョブを完了しました。

tdm_english <- vapply(doc.corpus, DocumentTermMatrix, FUN.VALUE = numeric(1), list(dictionary = dictionary_english), USE.NAMES = FALSE)
于 2013-09-02T23:30:58.807 に答える