CRAN/github/R-Forge にある R または R パッケージのどの統計/データ マイニング アルゴリズムが存在するかを調べようとしています。これは、1 つのサーバー上で並列に、またはメモリ不足の問題に遭遇することなく、または順次に大規模なデータセットを処理できます。一度に複数のマシンで動作します。これは、ffbase::bigglm.ffdf のような ff/ffbase で動作するように簡単に移植できるかどうかを評価するためです。
これらを3つの部分に分割したいと思います:
パラメータ推定値を並行して更新または処理するアルゴリズム
バックショット ( https://github.com/lianos/buckshot )
lm.fit @ ビッグデータのプログラミング ( https://github.com/RBigData )
シーケンシャルに動作するアルゴリズム (R でデータを取得しますが、1 つのプロセスのみを使用し、1 つのプロセスのみがパラメーターを更新します)
bigglm ( http://cran.r-project.org/web/packages/biglm/index.html )
複合ポアソン線形モデル ( http://cran.r-project.org/web/packages/cplm/index.html )
Kmeans @ biganalytics ( http://cran.r-project.org/web/packages/biganalytics/index.html )
データの一部を操作する
- 分散テキスト処理 ( http://www.jstatsoft.org/v51/i05/paper )
また、相互検証などによるハイパーパラメーターの最適化などの単純な並列化を除外したいと思います。これらの種類のモデル/オプティマイザーまたはアルゴリズムへの他のポインターはありますか? もしかしてベイジアン?RGraphlab (http://graphlab.org/) というパッケージでしょうか。