matrix - 多くのゼロ値を持つデータをクラスタリングするための K-means はありますか?

Question

ほとんどがゼロの値を含む行列をクラスター化する必要があります... K-means はこれらの種類のデータに適していますか、それとも別のアルゴリズムを検討する必要がありますか?

score 3 · Accepted Answer

いいえ。その理由は、まばらなデータでは平均が適切ではないためです。結果として得られる平均ベクトルは、実際のデータとは非常に異なる特性を持ちます。多くの場合、実際のドキュメントよりも互いに似ています。

球面k-meansなどのスパースデータの k-means を改善するいくつかの変更があります。

しかし、ほとんどの場合、そのようなデータに対する k-means は大雑把なヒューリスティックにすぎません。結果はまったく役に立たないわけではありませんが、実行できる最高のものでもありません。動作しますが、設計によるものではなく偶然です。

score 1 · Accepted Answer

k -means は、文書用語ベクトルなどのまばらなデータをクラスター化するために広く使用されているため、先に進むことをお勧めします。もちろん、良い結果が得られるかどうかは、データと探しているものによって異なります。

注意すべき点がいくつかあります。

2 に答える 2