r - Rを使用して大規模なデータセットで単語をカウントする最速の方法は何ですか?

Question

700 万以上のレコードを持つ SQL データベースがあり、各レコードにはテキストが含まれています。各レコード内で、テキスト分析を実行したいと思います。たとえば、特定の単語の出現回数を数えます。tokenizeパッケージ内で R の関数を試してみましたが、openNLPこれは小さなファイルに適していますが、700 万レコード * レコードあたり 1 ～ 100 ワードの間で、R がに保持するには大きすぎますdata.frame。bigmemoryRやffパッケージ、さらにはパッケージを使用することも考えましたmapReduce。この種の分析に適したアプローチまたはパッケージはありますか?

score 1 · Accepted Answer

並行してアプローチするかもしれません。私はparLapplyb / cを使用しました.3つのOSすべてで動作すると思います。

wc <- function(x) length(unlist(strsplit(x, "\\s+")))

wordcols <- rep("I like icecream alot.", 100000)

library(parallel)
cl <- makeCluster(mc <- getOption("cl.cores", detectCores()))
clusterExport(cl=cl, varlist=c("wc", "wordcols"), envir=environment())
output <- parLapply(cl, wordcols, function(x) {
        wc(x)
    }
)
stopCluster(cl)  
sum(unlist(output))

score 0 · Accepted Answer

SQL 側では、エントリごとにも抽出し、それに (隣接するスペースを使用して...) をlen適用し、replace(" yourWord ","")文字列の合計長を再度計算してから、これら 2 つの間の差を取ることができます。私の SQL スキルはあまりよくないので、ここで実行例を簡単に紹介することはできません。申し訳ありません...

r - Rを使用して大規模なデータセットで単語をカウントする最速の方法は何ですか?

2 に答える 2

Related

Reference