次の 3 つの状況を考えてみましょう。
- すべてのノードが高密度クラスター内にあります。
- すべてのノードがクラスター内にありますが、クラスターが広くなっています。
- 多くのノードはクラスター内にありますが、いくつかのノードはクラスターから離れた場所にあります。
すべてのペアワイズ距離の合計は、(1) と (2) を適切にキャプチャします。クラスターが近いと、大きなクラスターよりも小さな結果が得られます。(3) はどうするか。ここでは、e
ノードの総数のN
一部が遠く離れており、平均距離が離れていD
ます。他の(1-e)N
ノードは、平均距離 でクラスター化されていd
ます。
では、いくつのペアワイズ接続を考慮する必要がありますか? クラスター化されたノードには、((1-e)N)^2=e^2*N^2-2*e*N^2+N^2
このような接続があります。離れたノードの場合、e^2*N^2
接続があります。
次に、これらの値に平均距離を掛けます。これにより、 の合計ペアワイズ平均が得られ(d*(e^2*N^2-2*e*N^2+N^2)+D*(e^2*N^2))/N
ます。ここで、e
が小さいと仮定すると、 を組み込んだ項を無視できe^2
ます。したがって、平均はd*(N^2-2*e*N^2)/N
です。
次に、2 番目のメトリクスである、平均中心点からの全員の距離を考えてみましょう。これは (1) と (2) についても問題ありません。クラスターが近いほど、大きなクラスターよりも結果が小さくなります。3でどうなるの?上記と同じものを使用してe
、外れ値の割合を表します。ここで、中心点からのノードの平均距離は で与えられ(d*(1-e)*N+D*e*N)/N
ます。言い換えれば、クラスタ化されたノードはもはや重く重み付けされていません。
計算を軽量化しながら、クラスター化されたノードをより適切に重み付けする方法はありますか? そう思います。
私の提案は、リストからノードのランダムなペアを選択し、ノード間の距離を計算してから、結果を平均することです。(1) タイトなクラスターの場合、すべてのノードが近くにあるため、描画するすべてのランダム ペアは、計算で取得したペアごとの平均に近くなります。(2) のゆるいクラスターについても、同じことが当てはまります。(3) 外れ値のあるクラスターの場合、クラスター外からよりもクラスター内からノードを描画する可能性が高いため、外れ値は無視されてしまいます。
サンプリングするノードの数を増やすと、クラスタがランダム サンプリングを支配する傾向があります。O(N)
これにより、時間ではなく適切な精度が得られると思いますO(N^2)
。