2

私は現在、クラスタリングを学んでいます。データベースに保存するサブスクライバーの average_duration_of_call の k-mean クラスターを実行しました。3つのセンターでの最初の実行では、 cluster1(53.33369 秒)-367 加入者、cluster2(121.67123 秒)-128 加入者、cluster3(369.09000 秒)-8 加入者。

再度センター 6でクラスタリングを再実行し、得られたセンターは cluster1(904.66670 秒) -1 サブスクライバー、cluster2(27.7 秒) - 108 サブスクライバー、cluster3(151.58)-43 サブスクライバー、cluster4(95 秒) - 135 サブスクライバー、cluster5( 59.5 秒) - 207 加入者、cluster6(278 秒)-9 加入者。

私の質問は、どのクラスターが最適で、どのように最適なクラスターを見つけるかです。経験からの助けが期待されます(私は現在R言語を使用しています)

4

2 に答える 2

2

初心者の場合は、K の初期値が不要になるように、密度ベースのクラスタリングを開始することをお勧めします。最初に epsilon=10 および minpts= 5 を使用して dbscan クラスタリングを開始し、生成されたクラスターの数を確認できます。その後、epsilon (11、12、... 15) の滑らかな増加と minpt (4、3、..1) の減少を開始し、その都度生成されたクラスターの数を確認します。次に、これらの数の平均は、実際のクラスターの平均数を反映することになっています。

しかし、k-means クラスタリングを適用する必要がある場合は、K-means クラスタリングにおける K の選択に関する論文が役に立つかもしれません。

于 2013-05-18T11:14:47.590 に答える