Apache ログ ファイルを分析していて、それを pandas データフレームにインポートしました。
'65.55.52.118 - - [30/May/2013:06:58:52 -0600] "GET /detailedAddVen.php?refId=7954&uId=2802 HTTP/1.1" 200 4514 "-" "Mozilla/5.0 (互換性あり; bingbot /2.0; + http://www.bing.com/bingbot.htm )"'
私のデータフレーム:
これを、IP、エージェント、および時間差に基づいてセッションにグループ化したい (時間が 30 分を超える場合は、新しいセッションにする必要があります)。
データフレームを IP とエージェントでグループ化するのは簡単ですが、この時間差を確認するにはどうすればよいでしょうか?問題が解決されることを願っています。
sessions = df.groupby(['IP', 'Agent']).size()
更新: df.index は次のようになります。
<class 'pandas.tseries.index.DatetimeIndex'>
[2013-05-30 06:00:41, ..., 2013-05-30 22:29:14]
Length: 31975, Freq: None, Timezone: None