0

集約されたログからデータを取得する方法を知りたいですか? これは私が持っているものです:
- HDFS にロードされる非圧縮ログ データは毎日約 30 GB (これはすぐに約 100 GB に増加します)
これは私の考えです:
- 毎晩、このデータは Pig で処理されます
- ログは読み取られ、分割され、カスタマイズされますUDF は次のようなデータを取得します: timestamp, url, user_id(たとえば、必要なものはこれだけです)
- ログ エントリから、これを HBase にロードします (ログ データは無限に保存されます)。

次に、特定の時間範囲内に特定のページを見たユーザーを知りたい場合は、各クエリでログ データ全体をスキャンすることなく、HBase をすばやくクエリできます (迅速な回答が必要です。数分でもかまいません)。また、複数のクエリが同時に行われます。

このワークフローについてどう思いますか? この情報を HBase にロードすることに意味があると思いますか? 他のオプションとは何ですか? また、それらは私のソリューションとどのように比較されますか? すべてのコメント/質問と回答に感謝します。前もって感謝します。

4

1 に答える 1

0

Hadoop では、常に 2 つのこと (処理またはクエリ) のいずれかを行っています。

あなたがやろうとしていることについては、HIVE http://hadoop.apache.org/hive/を使用することをお勧めします。データを取得して M/R ジョブを作成し、そのデータを好きなように処理して HIVE テーブルにプッシュできます。そこから(あなたが言うように、必要のないデータを見ないことが速度にとって適切かもしれないので、データを分割することさえできます)。ここから、必要に応じてデータ結果を照会できます。ここに非常に優れたオンライン チュートリアルがあります http://www.cloudera.com/videos/hive_tutorial

これを解決する方法はたくさんありますが、HBase を学習するための演習として実行に必要なすべてのサーバーをセットアップしない限り、HBase は少しやり過ぎのように思えます。HBase は、何千人もの人々が同時に情報を取得しようとしている場合に適しています。

また、Cloudera からの新しいインポート サーバーである FLUME を調べることもできます。ファイルをどこかからHDFS http://www.cloudera.com/blog/2010/07/whats-new-in-cdh3b2-flume/に直接取得します

于 2010-07-29T15:51:25.053 に答える