0

テキストマイニング用に R で tm および Snowball パッケージを使用しています。最初は、8 GB のメモリを搭載した Windows 7 を搭載したラップトップで実行しました。後で、64 GB のメモリを搭載した Linux (Ubuntu) マシンで同じことを試しました。これらのマシンはどちらも 64 ビットで、64 ビット版の R も使用しています。ただし、Windows には R 3.0.0 があり、Linux には R 2.14 があります。

一部のコマンドは、Windows と比較して Linux では非常に低速です。

コーパスコマンド

Windows 上

    d <- data.frame(chatTranscripts$chatConcat)
    ds <- DataframeSource(d)
    t1 <- Sys.time()
    dsc<-Corpus(ds)
    print(Sys.time() - t1)
    Time difference of 46.86169 secs

これは、Windows マシンで 47 秒しかかかりませんでした

Linux の場合

    t1 <- Sys.time()
    dsc<-Corpus(ds)
    print(Sys.time() - t1)
    Time difference of 3.674376 mins

これには Linux マシンで約220 秒かかりました

スノーボールステミング

Windows 上

    t1 <- Sys.time()
    dsc <- tm_map(dsc,stemDocument)
    print(Sys.time() - t1)
    Time difference of 12.05321 secs

これは、Windows マシンで12 秒しかかかりませんでした

Linux の場合

    t1 <- Sys.time()
    dsc <- tm_map(dsc,stemDocument)
    print(Sys.time() - t1)
    Time difference of 4.832964 mins

これには Linux マシンで約290 秒かかりました

Linux マシンでこれらのコマンドを高速化する方法はありますか? R のバージョンは、それほど大きな違いを生むでしょうか。ありがとうございました。

ラヴィ

4

1 に答える 1