r - メモリエラーなしで大規模なコーパスで tm_map を使用する方法は?

Question

tmパッケージを使用してテキストマイニングを実行しようとしています。そこでcorpus、文字列ベクトルからを作成します。次に、 , を使用tolowerしてすべての大文字を削除すると、エラーが発生します。

corpus <- Corpus(VectorSource(string_vector))   
corpus <- tm_map(corpus, tolower) # Makes all words lower case

Error in mcfork() :
  unable to fork, possible reason: Cannot allocate memory

コーパスの作成に使用している文字列ベクトルには 5621 行あり、最長の文字列は 4590 文字です。
を使用して、そのコマンドに不可欠ではないすべてのオブジェクトをメモリから削除しましたrm(list=ls())。しかし、違いはありません。

32GBのRAMを搭載したサーバーで実行しています：

R version 3.0.2 (2013-09-25)
Platform: x86_64-pc-linux-gnu (64-bit)

どうすればこれを修正できますか、またはサーバーの強度が十分ではありませんか?

score 1 · Accepted Answer

追加のパラメーターを設定することで、同様の問題を解決しました。

tm_map の「lazy=T」

したがって、tm_map への呼び出しは次のようになります。

tm_map(corpus, tolower, lazy=T)

r - メモリエラーなしで大規模なコーパスで tm_map を使用する方法は?

1 に答える 1

Related

Reference