ポイントのデータセットがあります。
lat |long | time
34.53 -126.34 1
34.52 -126.32 2
34.51 -126.31 3
34.54 -126.36 4
34.59 -126.28 5
34.63 -126.14 6
34.70 -126.05 7
...
(はるかに大きなデータセットですが、これは一般的な構造です。)
距離と時間に基づいてポイントをクラスター化したい。クラスターがいくつあるか分からないので、DBSCAN は良い選択のようです。
私は現在、分/5500を使用しています(これは約20メートルで、スケーリングされていると思います。)
library(fpc)
results<-dbscan(data,MinPts=3,eps=0.00045,method="raw",scale=FALSE,showplot=1)
生データがあるため、スケーリング/距離がどのように決定されるかを理解するのに問題があります。スケーリングされている場合とスケーリングされていない場合の eps の値を推測できますが、スケーリングが何を行うのか、またはどの距離メトリックが使用されているのかは不明です (おそらくユークリッド距離ですか?) これに関するドキュメントはどこにありますか?
(これは、選択する自動化された方法を見つけることではありません ( DBSCAN (R) の eps と minpts を選択しますか?のように)、異なる値が何を意味するかについてです。「最初に距離関数が必要です」と言っても、距離関数使用されているか、または作成する方法...)