csv ファイルに巨大な GPS データセットがあります。
こんな感じです。
12,1999-09-08 12:12:12, 116.3426, 32.5678
12,1999-09-08 12:12:17, 116.34234, 32.5678
.
.
.
各列の形式は次のとおりです。
id, timestamp, longitude, latitude
現在、パンダを使用してファイルをデータフレームにインポートしています。これまでのところ、このコードを記述しています。
import pandas as pd
import numpy as np
#this imports the columns and making the timestamp values as row indexes
df = pd.read_csv('/home/abc/Downloads/..../366.txt',delimiter=',',
index_col=1,names=['id','longitude','latitude'])
#removes repeated entries due to gps errors.
df = df.groupby(df.index).first()
場合によっては、削除する必要がある同じ日付のエントリが 2 つまたは 3 つあることがあります。
私はこのようなものを手に入れます
id longitude latitude
1999-09-08 12:12:12 12 116.3426 32.5678
1999-09-08 12:12:17 12 116.34234 32.5678
# and so on with redundant entries removed
今、同じ緯度と経度を持つ行に連続してインデックスを付けたい..つまり、私の視覚化は
id longitude latitude
0 1999-09-08 12:12:12 12 116.3426 32.5678
1 1999-09-08 12:12:17 12 116.34234 32.5678
2 1999-09-08 12:12:22 12 116.342341 32.5678
1999-09-08 12:12:27 12 116.342341 32.5678
1999-09-08 12:12:32 12 116.342341 32.5678
....
1999-09-08 12:19:37 12 116.342341 32.5678
3 1999-09-08 12:19:42 12 116.34234 32.56123
and so on..
つまり、緯度と経度の値が同じ行は、連続して索引付けされます。どうすればそれを達成できますか? 私はパンダの初心者なので、それについてあまり知りません。助けてください!