データセット内の k-means クラスターの数を決定するために L メソッドを適用する前に、評価メトリックにスムーサーを適用しようとした人はいますか? もしそうなら、それは結果を改善しましたか?または、より少ない数の k-means 試行を許可して、速度を大幅に向上させますか? どの平滑化アルゴリズム/方法を使用しましたか?
「L-メソッド」の詳細については、「 階層クラスタリング/セグメンテーション アルゴリズムでのクラスタ/セグメント数の決定」 、サルバドール & チャンを参照してください。
これにより、さまざまな試行クラスター数の範囲の評価メトリックが計算されます。次に、ニー (最適な数のクラスターで発生する) を見つけるために、線形回帰を使用して 2 つの線が適合されます。膝のフィットを改善するために、単純な反復プロセスが適用されます。これは、既存の評価メトリック計算を使用し、k-means の再実行を必要としません。
評価指標については、単純化した Dunns Index の逆数を使用しています。速度のために簡略化されています (基本的に、直径とクラスター間の計算は簡略化されています)。逆数は、インデックスが正しい方向に機能するようにするためのものです (つまり、一般的に低いほど良い)。
K-means は確率的アルゴリズムであるため、通常は複数回実行され、最適なものが選択されます。これは非常にうまく機能しますが、1..N クラスターに対してこれを行うと、時間がすぐに加算されます。したがって、実行数を抑えることは私の関心事です。私の実装が実用的かどうかは、全体の処理時間によって決まる可能性があります。高速化できない場合は、この機能を捨てるかもしれません。