9

K-Means と共にキャノピー クラスタリング アルゴリズムを実装しようとしています。Canopy クラスタリングを使用して最初の開始点を K-means にフィードするようにオンラインで検索しましたが、問題は、Canopy クラスタリングでは、キャノピーに T1 と T2 の 2 つのしきい値を指定する必要があることです。内側のしきい値のポイントはそのキャノピーに強く関連付けられており、より広いしきい値のポイントはそのキャノピーにあまり関連付けられていません。これらの閾値、または林冠の中心からの距離はどのように決定されますか?

問題のコンテキスト:

私が解決しようとしている問題は、[1,30] や [1,250] などのセット サイズが約 50 の数値のセットがあることです。重複する要素が存在する可能性があり、それらは浮動小数点数である可能性もあります。 as 8, 17.5, 17.5, 23, 66, ... 最適なクラスター、または一連の数値のサブセットを見つけたい。

したがって、K-means を使用した Canopy クラスタリングが適切な選択である場合、私の疑問は依然として残ります: T1 値、T2 値をどのように見つけますか?. これが適切な選択ではない場合、使用するより優れた、よりシンプルで効果的なアルゴリズムはありますか?

4

2 に答える 2

2

実際、これがキャノピー クラスタリングの大きな問題です。しきい値の選択は、実際のアルゴリズムと同じくらい困難です。特に高次元で。2D 地理データ セットの場合、ドメインの専門家はおそらく距離のしきい値を簡単に定義できます。しかし、高次元データでは、最初にデータのサンプルに対して k-means を実行し、次にこのサンプルの実行に基づいて距離を選択するのがおそらく最善の方法です。

于 2012-01-15T12:12:00.163 に答える