0

クラスター化したいデータセットは、スケールと範囲が異なる (負、正、両方) 約 1000 個のサンプルと 10 個の特徴で構成されています。scipy.stats.normaltest() を使用して、どの機能も正規分布していないことがわかりました (すべての p 値 < 1e-4、データが正規分布から取得されたという帰無仮説を棄却するのに十分小さい)。しかし、私が知っているすべての距離測定は、正規分布データを想定しています (データがどれほど不均一であるかに気付くまで、マハラノビスを使用していました)。この状況では、どのような距離尺度を使用しますか? それとも、すべての機能を正規化し、それがバイアスを導入しないことを願うだけでよいのでしょうか?

4

1 に答える 1