私は推奨エンジンを構築しようとしています。そのため、apache mahout を使用することを考えていますが、mahout がデータをリアルタイムで処理するのか、サーバーがアイドル状態のときにデータを前処理して結果を保存するのかを判断できません。データベースのどこかに。
また、Amazonやnetflixのようなサイトがどのようなアプローチを取っているか、誰か知っていますか?
私は推奨エンジンを構築しようとしています。そのため、apache mahout を使用することを考えていますが、mahout がデータをリアルタイムで処理するのか、サーバーがアイドル状態のときにデータを前処理して結果を保存するのかを判断できません。データベースのどこかに。
また、Amazonやnetflixのようなサイトがどのようなアプローチを取っているか、誰か知っていますか?
両方ではありません。内部には、中程度の規模で本質的にリアルタイムである古いプロジェクトの一部があります。すべてオフラインの Hadoop ベースの実装もあります。2つは関連していません。
私はこれらの部分の主な作成者です。両方を一緒に行うシステムが必要な場合は、私の現在のプロジェクト Myrrix ( http://myrrix.com )を参照することをお勧めします。