解析しようとしている Apache ログの広範なセットがあります。具体的には、サイトで実行される PHP スクリプトがあり、データベースに引数を渡して結果をフィルター処理し、一般に公開します。「searchbox.php」と呼ばれるこのスクリプトは、結果に関心のある 3 つの引数を (その URL で) 渡します。
- エンジン
- クエリ
- サブエンジン
残りの情報は、現時点では私にとって価値がありません。単一のログ エントリの形式は次のとおりです。
sub.domain.com 123.456.789.456 - - [28/Jun/2012:00:04:00 -0500] "GET /sitescripts/search-box/searchbox.php?engine=catalog-vs-worldcat&query=law+enforcement+articles&x=0&y=0&subengine=iiikw HTTP/1.1" 302 20 "http://sub.domain.com/" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.7; rv:12.0) Gecko/20100101 Firefox/12.0" - 0
必要な情報は GET リクエストにあります。これらの 3 ビットの情報をこれらの大きなログ ファイルから取り出して、CSV またはタブ区切りファイルにダンプするクリーンな方法が必要なだけです。
これは PHP で行われると思いますが、Python も楽しませます。