集約されたログからデータを取得する方法を知りたいですか? これは私が持っているものです:
- HDFS にロードされる非圧縮ログ データは毎日約 30 GB (これはすぐに約 100 GB に増加します)
これは私の考えです:
- 毎晩、このデータは Pig で処理されます
- ログは読み取られ、分割され、カスタマイズされますUDF は次のようなデータを取得します: timestamp
, url
, user_id
(たとえば、必要なものはこれだけです)
- ログ エントリから、これを HBase にロードします (ログ データは無限に保存されます)。
次に、特定の時間範囲内に特定のページを見たユーザーを知りたい場合は、各クエリでログ データ全体をスキャンすることなく、HBase をすばやくクエリできます (迅速な回答が必要です。数分でもかまいません)。また、複数のクエリが同時に行われます。
このワークフローについてどう思いますか? この情報を HBase にロードすることに意味があると思いますか? 他のオプションとは何ですか? また、それらは私のソリューションとどのように比較されますか? すべてのコメント/質問と回答に感謝します。前もって感謝します。