1

Pandas DataFrame を使用して GPS データを逆シリアル化し、データ処理と分析を実行し始めてから数か月が経ちました。

Pandas の堅牢性、柔軟性、およびパワーには非常に感銘を受けましたが、明確さ、単純さ、および計算速度の両方のために、データを適切にモデル化するには、どの機能をどのように使用すればよいかについて少し迷っています。

基本的に、各 DataFrame は主にdatetimeオブジェクトによってインデックス付けされ、緯度と経度のタプル用に少なくとも 1 つの列と標高用に 1 つの列があります。

最初に行うことは、2 つの座標ペアを引数として受け取る関数を使用して、座標ペア間の測地線距離 (最初の 1 つは 0.0) で新しい列を計算することです。その新しい列から、トラックに沿った累積距離を計算できます。 、線形参照システムとして使用します

私が対処する必要がある質問は次のとおりです。

  1. 同じデータフレームで、単調に増加する 2 つの異なる列 (累積距離とタイムスタンプ) を使用し、実行時に特定のコンテキストごとにより便利なものを選択し、これらのインデックスを使用して新しく挿入された行を自動調整する方法はありますか? ?
  2. ベクトル化できる関数を適用する特定のケースdiff(反復ペアワイズ ループの代わりに配列操作のように適用される) では、パンダで慣用的にそれを行う方法はありますか? 直接__sub__使用できるように、diff () 操作をサポートする「座標」クラスを作成する必要がありますか?dataframe.latlng.diff

これらの質問が適切に定式化されているかどうかはわかりませんが、それは、少なくとも少しは、圧倒的な数の可能性と、(まだ) やや断片化されたドキュメントによるものです。

また、GPS データ (トラックログ) または地理空間データ全般に Pandas を使用することに関するヒントは大歓迎です。

助けてくれてありがとう!

4

0 に答える 0