1

データセットのカーネル密度推定に基づく平均シフト クラスタリング アルゴリズムを使用しています。make_blobs大規模で高次元のデータセットを生成したいのですが、Scikit-Learn 関数が適していると思いました。しかし、100 万ポイントの 8 次元データセットを生成しようとすると、ほとんどすべてのポイントが個別のクラスターとして扱われることになります。

標準偏差 1 のブロブを生成し、平均シフトの帯域幅を同じ値に設定しています (これは理にかなっていると思いますよね?)。2 次元のデータセットではこれで良い結果が得られましたが、より高い次元では、ポイント間の距離が大きくなりすぎて意味のあるクラスタリングができなくなるという点で、次元の呪いに遭遇していると思います。

Mean Shift クラスタリング (のようなもの) に適した高次元のデータセットを取得する方法に関するヒントやコツはありますか? (または、私は何か間違ったことをしていますか?(もちろん、これは良い可能性です))

4

1 に答える 1