0

私たちは、サイト上の100万以上のアイテムに対するユーザーの「関心」(クリック、いいねなど)を分析して、「類似アイテム」リストを生成する方法について戦略を立てています。

大量の生データを処理するために、Hadoop、Hive、および関連プロジェクトについて学習しています。

私の質問は、この懸念に関するものです。Hadoop/ Hiveなどは、データダンプとそれに続く処理サイクルを対象としているようです。おそらく、処理サイクルの終わりは、関連するアイテム間のリンクのインデックス付きグラフを拡張するものです。

これまでのところ順調に進んでいる場合、これらのシナリオでは通常、データはどのように処理されますか。

  • リンクのインデックス付きグラフを再構築するために、生のユーザーデータが定期的に再分析されていますか?
  • 入ってくるデータをストリーミングし、分析してデータストアを更新しますか?
  • 分析の結果データが変化するにつれて、通常、データを1つずつ更新するのでしょうか、それとも一括で再処理するのでしょうか。
  • このユースケースは、Hive / HDFSよりもCassandraによって適切に対処されていますか?

この種のビッグデータ処理に対する一般的なアプローチをよりよく理解したいと思っています。

4

1 に答える 1

1

これは、Hadoopファミリーのツールの良いユースケースだと思います。私には、HDFSとFlumeが当然の選択であるように見えます。関心のある分析の種類、データの整理とクエリの柔軟性に応じて、HBaseまたはHiveのいずれかを調べます。

リンクのインデックス付きグラフを再構築するために、生のユーザーデータが定期的に再分析されていますか?

回答:Hadoopはこれに非常に適しています。これにはHBaseを使用しますが、他にも選択肢があります。

入ってくるデータをストリーミングし、分析してデータストアを更新しますか?

回答:Flumeはこれに適しています。

分析の結果データが変化するにつれて、通常、データを1つずつ更新するのでしょうか、それとも一括で再処理するのでしょうか。

回答:両方を行うオプションがあります。バルクはおそらくHDFSでのMapReduceジョブであり、HBase列ファミリー値またはHive行を介してピースごとに管理できます。もっと詳しく教えていただければ、もっと正確になります。

このユースケースは、Hive / HDFSよりもCassandraによって適切に対処されていますか?

回答:CassandraとHBaseはどちらもGoogleのBigTableの実装です。選択は、データをどのように整理、アクセス、分析、更新する必要があるかによって決まると思います。必要に応じて、より多くのガイダンスを提供できます。HBaseは通常、半構造化された高R/W処理に適しています。

DHFSは、データダンプを呼び出すときに、柔軟でスケーラブルなストレージに一般的に適しています。 Flumeは、ストリーミングデータの移動に適用できます。

グラフを考えている場合は、TitanとHBaseも検討することを検討します。

表形式のデータに関心があり、SQLのようなクエリを使用する場合は、Hiveを適用できます。

于 2012-08-08T01:32:20.850 に答える