私たちは、サイト上の100万以上のアイテムに対するユーザーの「関心」(クリック、いいねなど)を分析して、「類似アイテム」リストを生成する方法について戦略を立てています。
大量の生データを処理するために、Hadoop、Hive、および関連プロジェクトについて学習しています。
私の質問は、この懸念に関するものです。Hadoop/ Hiveなどは、データダンプとそれに続く処理サイクルを対象としているようです。おそらく、処理サイクルの終わりは、関連するアイテム間のリンクのインデックス付きグラフを拡張するものです。
これまでのところ順調に進んでいる場合、これらのシナリオでは通常、データはどのように処理されますか。
- リンクのインデックス付きグラフを再構築するために、生のユーザーデータが定期的に再分析されていますか?
- 入ってくるデータをストリーミングし、分析してデータストアを更新しますか?
- 分析の結果データが変化するにつれて、通常、データを1つずつ更新するのでしょうか、それとも一括で再処理するのでしょうか。
- このユースケースは、Hive / HDFSよりもCassandraによって適切に対処されていますか?
この種のビッグデータ処理に対する一般的なアプローチをよりよく理解したいと思っています。