テキストマイニング用に R で tm および Snowball パッケージを使用しています。最初は、8 GB のメモリを搭載した Windows 7 を搭載したラップトップで実行しました。後で、64 GB のメモリを搭載した Linux (Ubuntu) マシンで同じことを試しました。これらのマシンはどちらも 64 ビットで、64 ビット版の R も使用しています。ただし、Windows には R 3.0.0 があり、Linux には R 2.14 があります。
一部のコマンドは、Windows と比較して Linux では非常に低速です。
コーパスコマンド
Windows 上
d <- data.frame(chatTranscripts$chatConcat)
ds <- DataframeSource(d)
t1 <- Sys.time()
dsc<-Corpus(ds)
print(Sys.time() - t1)
Time difference of 46.86169 secs
これは、Windows マシンで 47 秒しかかかりませんでした
Linux の場合
t1 <- Sys.time()
dsc<-Corpus(ds)
print(Sys.time() - t1)
Time difference of 3.674376 mins
これには Linux マシンで約220 秒かかりました
スノーボールステミング
Windows 上
t1 <- Sys.time()
dsc <- tm_map(dsc,stemDocument)
print(Sys.time() - t1)
Time difference of 12.05321 secs
これは、Windows マシンで12 秒しかかかりませんでした
Linux の場合
t1 <- Sys.time()
dsc <- tm_map(dsc,stemDocument)
print(Sys.time() - t1)
Time difference of 4.832964 mins
これには Linux マシンで約290 秒かかりました
Linux マシンでこれらのコマンドを高速化する方法はありますか? R のバージョンは、それほど大きな違いを生むでしょうか。ありがとうございました。
ラヴィ