0

クラスタリング アルゴリズムをデータ セットに適用しようとしています。私のデータセットは映画のもので、属性の一部は名目上のものです。例えば:

movie 1:
[
IMDB popularity: 1.02
Genre: Drama
Sub-genre: Horror
Rating: 1.23%
]

movie 2:
[
IMDB popularity: 2.08
Genre: Comedy
Sub-genre: Animation
Rating: 0.72%
]

etc. etc.

K-means に似たものを適用できますか? たとえば、「ドラマ」を 0、「ホラー」を 1、「コメディ」を 2、「アニメーション」を 3 とラベル付けすると、K-means は距離で機能します。 「ドラマ」は「コメディ」よりも「ホラー」に密接に関連しています (この例では、現実に近いかもしれませんが、一般的なケースでは、言葉を数字としてラベル付けし、実際の比率を維持することは非常に困難です.この問題に対処するアルゴリズムは?

4

1 に答える 1