私はhadoopの初心者で、概念をよく理解できません。以下のプロセスに従いました
実際に私がやろうとしていること/私が得た要件は/var/log/httpd
、以下の形式でpythonを使用してhadoopであるfedora(linux)のApacheログファイルを処理することです
IP address Count of IP Pages accessed by IP address
Apache ログ ファイルは 2 種類になることを知っています
access_logs
error_logs
しかし、私はApacheのログファイルの形式を本当に理解できません。
私のApacheログファイルの内容は以下のようなものです
::1 - - [29/Oct/2012:15:20:15 +0530] "GET /phpMyAdmin/ HTTP/1.1" 200 6961 "-" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.77 Safari/537.1"
::1 - - [29/Oct/2012:15:20:16 +0530] "GET /phpMyAdmin/js/cross_framing_protection.js?ts=1336063073 HTTP/1.1" 200 331 "http://localhost/phpMyAdmin/" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.77 Safari/537.1"
::1 - - [29/Oct/2012:15:20:16 +0530] "GET /phpMyAdmin/js/jquery/jquery-1.6.2.js?ts=1336063073 HTTP/1.1" 200 92285 "http://localhost/phpMyAdmin/" "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.77 Safari/537.1"
上記/Apacheログファイルの構造を誰か説明してもらえますか
データIPアドレス、IPアドレスのカウント、IPアドレスによってアクセスされたページでログファイルを処理する方法について混乱しています
Pythonと上記の情報を使用してhaddopでApacheログファイルを処理し、結果を上記の形式で保存する方法を教えてください。
また、上記の形式の apache ログ ファイルを処理するための基本的なコードを python で提供してください。これにより、python コードでファイルを処理する方法についてリアルタイムでアイデアを得ることができ、必要に応じてそれらを拡張できます。