apacheアクセスログで空白のユーザーエージェントとなりすましのユーザーエージェントの痕跡を見つけようとしています。
これが私のアクセスログからの典型的な行です:(IPとドメインが編集されています)
x.x.x.x - - [10/Nov/2012:16:48:38 -0500] "GET /YLHicons/reverbnation50.png HTTP/1.1" 304 - "http://www.example.com/newaddtwitter.php" "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) AppleWebKit/534.7 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/534.7 ZemanaAID/FFFF0077"
空白のユーザーエージェントの場合、私はこれを行おうとしています。
awk -F\" '($6 ~ /^-?$/)' /www/logs/www.example.com-access.log | awk '{print $1}' | sort | uniq
UAに関する情報を見つけるために、私はこれを実行しています:(各一意のUAのヒット数を教えてください)
awk -F\" '{print $6}' /www/logs/www.example.com-access.log | sort | uniq -c | sort -fr
ボットやその他のインターネットのスカムと戦うためにできる最善の情報を提供しながら、これらのコマンドをより強力で考え抜くために、別の方法で何ができるでしょうか。