5

いくつかの時点で重複する時系列レコードがいくつかあり、必ずしも開始日と終了日が同じであるとは限りません。各行は異なる時系列を表します。データ収集の実際の時間を維持するために、それらをすべて同じ長さにしました。

たとえば、t(1,2,3,4,5,6):

Station 1: nan, nan, 2, 4, 5, 10

Station 2: nan, 1, 4, nan, 10, 8

Station 3: 1, 9, 4, 7, nan, nan

Python でクラスター分析を実行して、動作のタイミングが重要な同様の動作を持つステーションをグループ化しようとしているため、ナンを取り除くことはできません。(私が知っていること)。

何か案は?

4

1 に答える 1

2

K-means は、この種のデータには最適なアルゴリズムではありません。

K-means は、クラスター内分散 (= 平方和、WCSS) を最小化するように設計されています。

しかし、NaN の分散をどのように計算するのでしょうか? とにかく、ここで分散はどれほど意味があるのでしょうか?

代わりに、使用したい場合があります

  • DTW、しきい値交差距離などの時系列用に設計された類似度測定。
  • 距離ベースのクラスタリング アルゴリズム。シリーズが少ない場合は、階層的クラスタリングで問題ありません。
于 2013-09-05T08:28:01.333 に答える