私はApacheHadoopを初めて使用します。しかし、それを使用してマシンログを要約する方法を学びたいと思います。実際には十分な大きさ(GB)ではなく、解析して数時間待つことができました。しかし、Hadoopを学ぶことは役に立つかもしれないと思います。
だから、私は以下のような形式のログエントリを持っています。
Location, Date, IP Address
例えば
New York, 2011-11-31 10:50:59, 1.1.1.1
New York, 2011-11-31 10:51:01, 1.1.1.2
Chicago, 2011-11-31 10:52:02, 1.1.1.1
Los Angeles, 2011-11-31 10:53:04, 1.1.1.4
そして、それを場所ごとに、月ごとにグループ化し、次にIPアドレスごとに集約したいと思います。以下は、それがどのように見えるかについての私の心の何かです。
Location, Month, IP, Count
+ New York
| +-- November 2011
| | +---- 1.1.1.1 5
| | +---- 1.1.1.2 2
| | +---- 1.1.1.3 7
| +-- December 2011
| | +---- 1.1.1.1 6
| | +---- 1.1.1.4 6
| +-- January 2012
| +---- 1.1.1.1 10
+ Chicago
| +-- November 2011
| | +---- 1.1.1.1 20
| | +---- 1.1.1.2 1
| | +---- 1.1.1.3 10
(so on)
私の質問は:
- Hadoopを使用してこれを行うことはできますか、それともより良い方法がありますか?
- Hadoopを使用してこれを行う一般的な方法は何ですか?
リンクや記事、またはサンプルコードへのポインタを提供していただきありがとうございます。