一部のユーザーの位置情報を含むビッグ データ ファイルがあります。フォーマットを以下に示します。
User TimeStamp Lat Long
A 2013-03-01 19:55:00 45.4565 65.6783
A 2013-03-01 01:40:00 46.3121 -12.3456
A 2013-03-02 11:25:00 23.1234 -85.3456
A 2013-03-05 05:00:00 15.4565 32.1234
......
C 2013-03-01 19:55:00 44.4565 35.6783
C 2013-03-03 11:20:00 42.3121 -22.3456
C 2013-03-03 11:25:00 42.3121 -22.3456
C 2013-03-03 11:30:00 16.4565 22.1234
C 2013-03-03 11:50:00 42.3121 -22.3456
C 2013-03-03 11:55:00 19.4565 -25.1234
......
タイムスタンプは、各行が 5 分間隔の場所を表すようなものです。このデータは 1 週間のデータです。
ここで、私がやりたいことは、1 週間全体で 1 人のユーザーが 1 日あたり各場所で費やした時間の単純な分布 (ヒストグラム) を取得することです。したがって、ユーザーごとに 1 日あたり各場所で費やされた時間の 0 時間から 24 時間のプロットになります。
2 つ目は上記と似ていますが、1 人のユーザーの 1 日あたりの合計時間を考慮するのではなく、継続的な時間の消費のみを考慮します。たとえば、ユーザー C の場合、2 行目と 3 行目を合わせて 10 分間と見なしますが、同じ場所に戻っている 5 行目は別の 5 分間と見なします。
Pythonでこれを行うにはどうすればよいですか? 私はここの初心者で、ここで立ち往生しています。タイムスタンプを日、時間、分、秒に分割して、1 日あたりのカウントを取得できると思います。しかし、私はその後迷っています。