私は Web アプリケーションを開発しており、2 種類の統計/モデリング操作を実行したいと考えています。
(1) アプリのバックエンド (HBase クラスター) に保存されているデータからのバッチ分析。通常、この操作は定期的に、たとえば毎晩実行する必要があります。データのサイズがローカル メモリに格納できるサイズを超える可能性があるため、並列計算をサポートするパッケージの呼び出しが必要になる場合があります。(2) フロントエンドでのユーザー要求によってトリガーされるオンザフライ R 実行。典型的なユースケースには、小さな時系列の予測が含まれます。ユーザーは同時にリクエストを送信する可能性があるため、同時実行をサポートする必要があります。ユーザーは応答が来るのを無期限に待つことはできないため、パフォーマンスは最も重要です。
私の質問は、これら 2 つの問題に対処するためのテクノロジと CRAN パッケージの最適な組み合わせは何でしょうか? 現時点での私の考えは次のとおりです。
- Rserver を Ruby クライアントと組み合わせて使用する。あるいは、Java でサーバーを作成し、既存の R/Java バインディングを使用することを考えています。
- RHadoop を使用して大きなデータセットのジョブを処理する。
RevoDeployR は優れたツールですが、オープン ソースではありませんね。
ご協力ありがとうございました