6

一時的な緯度/経度が大量にあります。

このデータから軌道のkクラスターを見つけようとしています。このための最良のアプローチは何ですか?

ありがとう。

編集:

kmeans /階層的クラスタリングを使用するには、データの特徴(lat / lon + time)をどのように生成する必要がありますか?

編集:

うまくいけば、これはそれをより明確にするでしょう

これが私のデータがどのように見えるかの例です:

軌道1:

time1でのlat1、lon1
time2でのlat2、lon2
..。
time55でlat55、lon55
軌道2:

time343でlat343、lon343
lat344、lon344 at time344
..。
time376でlat376、lon376

そしてオンとオン(より多くの軌道を結合します)。

つまり、これらの軌道が200個あるとすると、それらを2つのグループにクラスター化します。これにどのようにアプローチすればよいですか?

これにはkmeans/HACを使用する必要がありますか、それとも別の方法を検討する必要がありますか?

編集:

これの目的は、軌道をk個の異なる方向の軌道を表すk個のクラスターに分類することです。

単純に、私は軌道を異なる方向のグループにクラスター化しようとしています。私は彼らの距離の類似性について心配していません。

だから私はこのようなものを見つけたいと思います:

方向1:
軌道4
弾道5
弾道7
方向2:
弾道44
弾道2
弾道27

..。

方向10:
弾道17
弾道8

注:軌道の形状はほとんどが線(直線ではない)であり、一部はループしています。
注:緯度/経度は1つの地域に非常に局所的であるため、地球平面説を使用できます。

方向は非常に粗くすることを目的としています。これを達成するために、軌道間の類似性を計算してそれらをクラスター化するにはどうすればよいですか?

編集:

これがイラストです(私の能力の限りでは):

軌道と最終結果

軌道をそのような方向に分けたい。

4

3 に答える 3

4

K-means は、分散を最小化するように設計されています。

これを経度データに適用すると、常に赤道に近く、子午線 180 度から離れていない限り、エラーが発生します。地球はほぼ球面であり、無限ユークリッド ベクトル空間ではないためです。

たとえば、大円距離を使用できる代わりに、距離または密度に基づくクラスタリング アルゴリズムを試してください。k-means よりも階層的クラスタリングの方が適している場合もあります。

大圏距離は 2 点間の距離です。したがって、次に行うことは、これらの距離と時間コンポーネントを組み合わせて、軌跡の適切な類似度を測定する方法を理解することです。これは使用状況に大きく依存し、共有できる普遍的な解決策はありません。類似度関数が優れているほど、クラスタリングの結果も良くなります!

于 2013-02-26T20:48:28.323 に答える
2

問題を説明する方法は、すべての軌跡を赤道に対する角度として表すことができるかのように聞こえます。次に、セグメンテーションに行き着きます。これは実際にはクラスタリングではありません。たとえばhttps://en.wikipedia.org/wiki/Jenks_natural_breaks_optimizationを参照してください。あなたの場合、値はループするため、直線ではなく円(度/角度を使用)で値をセグメント化します。もちろん、これが問題を説明している場合は、それを視覚化する良い方法も提供します。

于 2013-02-27T15:40:39.477 に答える
1

動的タイム ワーピング(DTW) は、通常時系列データで使用される類似性メトリックを生成します (これはあなたが持っているものです)。次に、これらの DTW 類似性を、多数の類似性ベースのクラスタリング アルゴリズムのいずれかへの入力として使用できます。

あなたのデータセットでは、パスが異なる速度で横断されたり、サンプルが不均一な時間間隔で取得されたりした場合に、距離コンポーネントを含めると問題が発生する可能性があるため、方向のシーケンスを抽出します。

于 2013-03-01T18:18:59.197 に答える