制約はかなり特殊化されているため、これに答えるのはそれほど簡単ではありません。
ただし、次の考慮事項があります。
- BIGQueryはまだ公開されていません。したがって、使用ベースが小さい場合、プレビュー人口に含まれていても、改善に関するアドバイスを得るのは難しくなります。
- それぞれの回答は、モデリングシステムとストレージシステムについて尋ねました。Apache Mahoutはストレージメカニズムではないため、必ずしもそれ自体で機能するとは限りません。以前は、その機械学習の実装はいくつかのGoogle Summer of Codeのパスティーシュだと信じていましたが、コメント投稿者の提案でその見解を更新しました。それでも、さまざまなアルゴリズムのカバレッジがかなり不均一でむらがあるように見えます。また、コンポーネントがどのようにサポートまたは保守されているかは特に明確ではありません。私は、マハウトの伝道者がこれに取り組むことを勧めます。
その結果、これにより、1番目、2番目、および4番目のオプションが削除されます。
私がよくわからないのは、HadoopとRHIPEを利用するためのリアルタイムサーバーの必要性です。これは、リアルタイムではなく、推奨モデルを開発するためのバッチ処理で実行する必要があります。RHIPEを、クエリを実行するための単純なワンストップフロントエンドとして使用できると思います。
パッケージとモデルをプリロードできるので、RHIPEの代わりにRApacheを使用することをお勧めします。フロントエンドでHadoopを使用することに利点はありませんが、モデルのフィッティングには非常に自然なバックエンドシステムになります。
(更新1)その他のインターフェイスオプションには、RServe(http://www.rforge.net/Rserve/)および場合によってはサーバーモードのRStudioが含まれます。R / PHPインターフェースがありますが(以下のコメントを参照)、HTTPまたはTCP/IPを介してRにアクセスする方が良いと思います。
(更新2)プロセス全体に対処するために、私が見る基本的な考え方は、PHPからデータをクエリしてRに渡すか、R内からクエリを実行する場合は、コメント内のリンク(OmegaHatツールへのリンク)を確認することです。 )またはR&SimpleDBに関する新しい質問を投稿してください-SOの他の誰かが、この特定の接続についてより良い洞察を与えることができると確信しています。RApacheを使用すると、パッケージがロードされ、データがRAMに格納された状態ですでに準備されている多くのRプロセスをインスタンス化できます。したがって、予測に使用する必要のあるデータを渡すだけで済みます。新しいデータが小さなベクトルの場合、RApacheは問題ないはずです。これは、リアルタイムで処理されているデータにとって正しいようです。