16

データセット内の k-means クラスターの数を決定するために L メソッドを適用する前に、評価メトリックにスムーサーを適用しようとした人はいますか? もしそうなら、それは結果を改善しましたか?または、より少ない数の k-means 試行を許可して、速度を大幅に向上させますか? どの平滑化アルゴリズム/方法を使用しましたか?

「L-メソッド」の詳細については、「 階層クラスタリング/セグメンテーション アルゴリズムでのクラスタ/セグメント数の決定」 、サルバドール & チャンを参照してください。

これにより、さまざまな試行クラスター数の範囲の評価メトリックが計算されます。次に、ニー (最適な数のクラスターで発生する) を見つけるために、線形回帰を使用して 2 つの線が適合されます。膝のフィットを改善するために、単純な反復プロセスが適用されます。これは、既存の評価メトリック計算を使用し、k-means の再実行を必要としません。

評価指標については、単純化した Dunns Index の逆数を使用しています。速度のために簡略化されています (基本的に、直径とクラスター間の計算は簡略化されています)。逆数は、インデックスが正しい方向に機能するようにするためのものです (つまり、一般的に低いほど良い)。

K-means は確率的アルゴリズムであるため、通常は複数回実行され、最適なものが選択されます。これは非常にうまく機能しますが、1..N クラスターに対してこれを行うと、時間がすぐに加算されます。したがって、実行数を抑えることは私の関心事です。私の実装が実用的かどうかは、全体の処理時間によって決まる可能性があります。高速化できない場合は、この機能を捨てるかもしれません。

4

1 に答える 1

6

私は過去にSOで同様の質問をしました。私の質問は、あなたが説明したL字型の膝を見つける一貫した方法を考え出すことについてでした. 問題の曲線は、複雑さとモデルの適合度との間のトレードオフを表しています。

最善の解決策d、次の図に従って最大距離のポイントを見つけることでした。

代替テキスト

注: リンク先の論文はまだ読んでいません..

于 2011-01-07T02:31:00.670 に答える