次のツールを使用して Lambda アーキテクチャを実装しようとしています: すべてのデータポイントを受信する Apache Kafka、バッチ処理 (ビッグ データ) 用の Spark、リアルタイム (Fast Data) 用の Spark ストリーミング、結果を保存する Cassandra。
また、受信するすべてのデータポイントはユーザー セッションに関連しているため、バッチ処理では、セッションが終了した時点でデータポイントを処理することにのみ関心があります。したがって、私は Kafka を使用しているため、これを解決する唯一の方法 (すべてのデータポイントが同じトピックに格納されていると仮定) は、バッチがトピック内のすべてのメッセージを取得し、セッションに対応するメッセージを無視することです。まだ終わっていません。
そこで、お聞きしたいのは次のことです。
- これは Lambda アーキテクチャを実装するための適切なアプローチですか? それとも、代わりに Haddop と Storm を使用する必要がありますか? (バッチ処理、Map Reduce に Kafka と Apache Spark を使用している人の情報が見つかりません)
- ユーザーセッションの問題を解決するためのより良いアプローチはありますか?
ありがとう。