(ほぼ) リアルタイムの Web 分析エンジンの設計と実装に取り組んでいます。これは、Google アナリティクスやChartBeatに似ています。1 日あたり約 1 億 5000 万のリクエストが予想されます。2.5 GHz (8 コア) CPU と 16 GB の RAM をそれぞれ搭載した 5 ~ 8 台のマシンを利用できます。
この要件に対して、水平方向にスケーラブルなソリューションを検討しています。現在、この目的のためにmongo-hadoopの組み合わせを分析しています。これまでの経験から、分析のためにすべてのデータを 1 つの場所 (1 つのマシン) に保持することは困難であることがわかりました。したがって、データ プロセッサとしての Hadoop とデータ ストレージとしての MongoDB は、私には良い組み合わせのように思えます。
この種のアプリケーションの標準または (言うべきですが) 実証済みのアーキテクチャはありますか? 考慮すべき設計上の考慮事項は何ですか? mongo-hadoop の組み合わせは誰かのために働いていますか?