私はデータ マイニングの分野の初心者であり、ジャンル グループを見つけるために映画データ セットをクラスタリングしたいと考えています。私のデータセットには、86 本の映画に対して 26 の異なるジャンルがあります。映画を 26 ではなくいくつかのジャンルにグループ化するために、クラスタリングを採用したいと考えています。たとえば、クラスタリング アルゴリズムを実行した後、4 つのクラスタまたはデータ セットに最適な小さなカウントが残ります。データセットを次のように定義しました M1 { G1,G2,.....G26} M2{G1,G2,.....G26} ここで、各ジャンル G1,....,G26 が値を保持できます0 または 1 のいずれかで、0 は不在、1 は存在します。次のステップは、その上で k-means クラスターを実行することです。ピアソン相関係数などに適切な距離関数を使用したいと考えています。
実験には MATLAB を使用しています。k=3,4,5,6 を使用して k-Means を実行してみました。また、階層的クラスタリングも実行しました。
どのクラスタリング結果が優れているかを判断する方法がわかりません。それを確認する方法は?私は初心者なので、MATLAB でバイナリ機能のクラスターをプロットする方法がわかりません。また、ピアソン相関係数をk-Meansの距離メトリックとして使用する方法も知りません。助けてください。