5

CRAN/github/R-Forge にある R または R パッケージのどの統計/データ マイニング アルゴリズムが存在するかを調べようとしています。これは、1 つのサーバー上で並列に、またはメモリ不足の問題に遭遇することなく、または順次に大規模なデータセットを処理できます。一度に複数のマシンで動作します。これは、ffbase::bigglm.ffdf のような ff/ffbase で動作するように簡単に移植できるかどうかを評価するためです。

これらを3つの部分に分割したいと思います:

  1. パラメータ推定値を並行して更新または処理するアルゴリズム

  2. シーケンシャルに動作するアルゴリズム (R でデータを取得しますが、1 つのプロセスのみを使用し、1 つのプロセスのみがパラメーターを更新します)

  3. データの一部を操作する

また、相互検証などによるハイパーパラメーターの最適化などの単純な並列化を除外したいと思います。これらの種類のモデル/オプティマイザーまたはアルゴリズムへの他のポインターはありますか? もしかしてベイジアン?RGraphlab (http://graphlab.org/) というパッケージでしょうか。

4

2 に答える 2

1

ランダム フォレストは、並列に実行するのは簡単です。これは、 foreach ビネットの例の 1 つです。

x <- matrix(runif(500), 100)
y <- gl(2, 50)
library(randomForest); library(foreach)
rf <- foreach(ntree=rep(250, 4), .combine=combine,
.packages='randomForest') %dopar% randomForest(x, y, ntree=ntree)

この構成を使用して、クラスター内のすべてのコアにフォレストを分割できます。

于 2012-11-27T15:17:03.910 に答える
1

CRANのハイ パフォーマンス コンピューティングタスク ビューを読みましたか?

あなたが言及したポイントの多くをカバーし、それらの分野のパッケージの概要を示します.

于 2012-11-26T20:01:23.153 に答える