algorithm - 名義データのクラスタリング

翻译自：https://stackoverflow.com/questions/34839318 2016-01-17T14:14:51.240

823 次

クラスタリングアルゴリズムをデータセットに適用しようとしています。私のデータセットは映画のもので、属性の一部は名目上のものです。例えば：

movie 1:
[
IMDB popularity: 1.02
Genre: Drama
Sub-genre: Horror
Rating: 1.23%
]

movie 2:
[
IMDB popularity: 2.08
Genre: Comedy
Sub-genre: Animation
Rating: 0.72%
]

etc. etc.

K-means に似たものを適用できますか? たとえば、「ドラマ」を 0、「ホラー」を 1、「コメディ」を 2、「アニメーション」を 3 とラベル付けすると、K-means は距離で機能します。「ドラマ」は「コメディ」よりも「ホラー」に密接に関連しています (この例では、現実に近いかもしれませんが、一般的なケースでは、言葉を数字としてラベル付けし、実際の比率を維持することは非常に困難です.この問題に対処するアルゴリズムは?

algorithm - 名義データのクラスタリング

1 に答える 1

Related

Reference