K-Means と共にキャノピー クラスタリング アルゴリズムを実装しようとしています。Canopy クラスタリングを使用して最初の開始点を K-means にフィードするようにオンラインで検索しましたが、問題は、Canopy クラスタリングでは、キャノピーに T1 と T2 の 2 つのしきい値を指定する必要があることです。内側のしきい値のポイントはそのキャノピーに強く関連付けられており、より広いしきい値のポイントはそのキャノピーにあまり関連付けられていません。これらの閾値、または林冠の中心からの距離はどのように決定されますか?
問題のコンテキスト:
私が解決しようとしている問題は、[1,30] や [1,250] などのセット サイズが約 50 の数値のセットがあることです。重複する要素が存在する可能性があり、それらは浮動小数点数である可能性もあります。 as 8, 17.5, 17.5, 23, 66, ... 最適なクラスター、または一連の数値のサブセットを見つけたい。
したがって、K-means を使用した Canopy クラスタリングが適切な選択である場合、私の疑問は依然として残ります: T1 値、T2 値をどのように見つけますか?. これが適切な選択ではない場合、使用するより優れた、よりシンプルで効果的なアルゴリズムはありますか?