21

クラスタリング アルゴリズムを実行し、scikit-learn でシルエット スコアを使用して結果を評価したいと考えています。しかし、scikit-learn では、距離行列を計算する必要があります: distances = pairwise_distances(X, metric=metric, **kwds)

私のデータは 300K のオーダーで、私のメモリは 2GB であり、結果はメモリ不足です。また、クラスタリングの結果を評価できません。

この問題を克服する方法を知っている人はいますか?

4

1 に答える 1

27

sample_size呼び出しのパラメーターをsilhouette_score300K より小さい値に設定します。このパラメーターを使用すると、配列全体ではなく、データポイントがサンプリングされ、それらのデータポイントがX計算されます。silhouette_score

于 2013-05-07T17:24:28.010 に答える