algorithm - 大規模なデータを処理する、R に存在する並列アルゴリズム

Question

CRAN/github/R-Forge にある R または R パッケージのどの統計/データマイニングアルゴリズムが存在するかを調べようとしています。これは、1 つのサーバー上で並列に、またはメモリ不足の問題に遭遇することなく、または順次に大規模なデータセットを処理できます。一度に複数のマシンで動作します。これは、ffbase::bigglm.ffdf のような ff/ffbase で動作するように簡単に移植できるかどうかを評価するためです。

これらを3つの部分に分割したいと思います：

パラメータ推定値を並行して更新または処理するアルゴリズム
- バックショット ( https://github.com/lianos/buckshot )
- lm.fit @ ビッグデータのプログラミング ( https://github.com/RBigData )
シーケンシャルに動作するアルゴリズム (R でデータを取得しますが、1 つのプロセスのみを使用し、1 つのプロセスのみがパラメーターを更新します)
- bigglm ( http://cran.r-project.org/web/packages/biglm/index.html )
- 複合ポアソン線形モデル ( http://cran.r-project.org/web/packages/cplm/index.html )
- Kmeans @ biganalytics ( http://cran.r-project.org/web/packages/biganalytics/index.html )
データの一部を操作する
- 分散テキスト処理 ( http://www.jstatsoft.org/v51/i05/paper )

また、相互検証などによるハイパーパラメーターの最適化などの単純な並列化を除外したいと思います。これらの種類のモデル/オプティマイザーまたはアルゴリズムへの他のポインターはありますか? もしかしてベイジアン？RGraphlab (http://graphlab.org/) というパッケージでしょうか。

score 1 · Accepted Answer

ランダムフォレストは、並列に実行するのは簡単です。これは、 foreach ビネットの例の 1 つです。

x <- matrix(runif(500), 100)
y <- gl(2, 50)
library(randomForest); library(foreach)
rf <- foreach(ntree=rep(250, 4), .combine=combine,
.packages='randomForest') %dopar% randomForest(x, y, ntree=ntree)

この構成を使用して、クラスター内のすべてのコアにフォレストを分割できます。

score 1 · Accepted Answer

CRANのハイパフォーマンスコンピューティングタスクビューを読みましたか?

あなたが言及したポイントの多くをカバーし、それらの分野のパッケージの概要を示します.

algorithm - 大規模なデータを処理する、R に存在する並列アルゴリズム

2 に答える 2

Related

Reference