1

カテゴリ データをクラスタリングするための機械学習アルゴリズムの最も適切なファミリは何ですか? 次のデータセットがあるとします。

V1        V2        V3        V4
"v1a"     "v2b"     "v3b"     "v4c"
"v1b"     "v2f"     "v3a"     "v4c"
"v1a"     "v2e"     "v3b"     "v4c"

どういうわけかそれらをクラスター化する方法はありますか? 私は Apache Mahout を通じてこれを行うことに特に関心があります。ヒント\アイデアは大歓迎です。

4

1 に答える 1

0

最初に答える必要がある質問は次のとおりです。

クラスタとは

明らかに、既存のクラスター定義 (イプシロン未満のユークリッド距離のステップで接続されている) などの多くは役に立ちません。

そのようなデータをベクトル化して、k-means を引き続き実行できるようにするためのトリックがあります。

しかし、多くの場合、人々は自分が何をしているのかを最初に考慮していないため、結果は役に立たない.

ですから、まず自分がやりたいことを見つけてから、それを行うためのツールを探してください。

于 2013-02-25T15:25:17.810 に答える