私は予測分析に大きな焦点を当ててビッグデータについていくつかのことを学び始めています。そのために、実装したいケーススタディがあります。
5秒ごとにポーリングされるサーバーヘルス情報のデータセットがあります。取得したデータを表示したいのですが、もっと重要なのは、以前に構築した機械学習モデルを実行して結果を表示したいことです(サーバーがクラッシュすることを警告します)。
機械学習モデルは機械学習スペシャリストによって構築されるため、完全に範囲外です。私の仕事は、機械学習モデルを、モデルを実行して結果を素敵なダッシュボードに表示するプラットフォームに統合することです。
私の問題は、このシステムの「全体像」アーキテクチャです。すべての要素がすでに存在していることがわかりますが(cloudera + mahout)、すべてのニーズに対応するシンプルな統合ソリューションが不足しており、最先端の技術がいくつかのカスタムソフトウェアを実行しています...
それで、誰かがこのような本番システム(予測分析でデータを表示する)に光を当てることができますか?このためのリファレンスアーキテクチャ?チュートリアル/ドキュメント?
ノート:
私はいくつかの関連技術を調査しました:cloudera / hadoop、pentaho、mahout、weka。たとえば、Pentahoはビッグデータを保存し、そのデータに対してアドホックなWeka分析を実行できることを知っています。clouderaとImpalaを使用すると、データスペシャリストがアドホッククエリを実行してデータを分析することもできますが、それは私の目標ではありません。システムでMLモデルを実行し、取得したデータと一緒に結果を素敵なダッシュボードに表示したいと思います。そして、私はカスタムビルドの代わりにこの使用法をすでに許可しているプラットフォームを探しています。
機械学習がうまく統合されているように見えるPentahoに焦点を当てていますが、私が読んだすべてのチュートリアルは、リアルタイムではなく「アドホック」ML分析に関するものでした。そのテーマに関するチュートリアルは歓迎されます。
オープンソースまたは商用ソリューション(試用版付き)を気にしません
詳細によっては、これはビッグデータではないかもしれません。より「従来の」ソリューションも歓迎されます。
また、ここでのリアルタイムは広義の用語です。MLモデルのパフォーマンスが良好であれば、5秒ごとに実行するだけで十分です。
MLモデルは静的です(リアルタイムで更新したり、動作を変更したりすることはありません)
私の焦点は全体像、つまり予測分析の汎用プラットフォームを備えたビッグデータにあるため、私の例ではカスタマイズされたアプリケーションを探していません。