クラスター化したい大規模なデータセットがあります。私のトライアル ラン セットのサイズは 2,500 オブジェクトです。「実際の取引」で実行すると、少なくとも 20,000 個のオブジェクトを処理する必要があります。
これらのオブジェクトは、それらの間に余弦の類似性があります。このコサイン類似度は、数学的な距離メトリックであるという要件を満たしていません。三角不等式を満たしていません。
予想されるクラスターの数を事前に指定する必要なく、類似したオブジェクトをまとめる「自然な」方法でそれらをクラスター化したいと思います。
それを行うアルゴリズムを知っている人はいますか?本当に、a) 距離メトリックと b) 事前に指定された数のクラスターを必要としないアルゴリズムを探しているだけです。
どうもありがとう!
この質問は以前ここで尋ねられました: コサイン類似度値からのクラスタリング (ただし、このソリューションは K-means クラスタリングのみを提供します)、およびここ: 類似度行列の効果的なクラスタリング (ただし、このソリューションはかなり曖昧でした)