0

私はデータ マイニングの分野の初心者であり、ジャンル グループを見つけるために映画データ セットをクラスタリングしたいと考えています。私のデータセットには、86 本の映画に対して 26 の異なるジャンルがあります。映画を 26 ではなくいくつかのジャンルにグループ化するために、クラスタリングを採用したいと考えています。たとえば、クラスタリング アルゴリズムを実行した後、4 つのクラスタまたはデータ セットに最適な小さなカウントが残ります。データセットを次のように定義しました M1 { G1,G2,.....G26} M2{G1,G2,.....G26} ここで、各ジャンル G1,....,G26 が値を保持できます0 または 1 のいずれかで、0 は不在、1 は存在します。次のステップは、その上で k-means クラスターを実行することです。ピアソン相関係数などに適切な距離関数を使用したいと考えています。

実験には MATLAB を使用しています。k=3,4,5,6 を使用して k-Means を実行してみました。また、階層的クラスタリングも実行しました。

どのクラスタリング結果が優れているかを判断する方法がわかりません。それを確認する方法は?私は初心者なので、MATLAB でバイナリ機能のクラスターをプロットする方法がわかりません。また、ピアソン相関係数をk-Meansの距離メトリックとして使用する方法も知りません。助けてください。

4

2 に答える 2

0

評価は、クラスタリングに関して最も難しい部分です。

探しているものがわかっている場合は、クラスター分析を実行する必要はありません。

したがって、クラスタリングの客観的な「真実」などはありません。何をクラスターと見なすかは、個人のニーズに大きく依存します。それらをカスタム アルゴリズムにエンコードしない限り、クラスタリング アルゴリズムがまったく異なるものを計算する可能性があります。

たとえば、k-means は分散を最小化します。分散がクラスターの考えと一致するかどうか!

あなたのユースケースでは、既存の各ジャンルの割り当ての大部分がいずれかのクラスター内にあることを確認するのが最善の健全性チェックです。いたるところにある場合、クラスタリングはジャンルの概念によってクラスタリングされません。

于 2013-01-10T08:45:19.563 に答える
0

グラウンド トゥルースがない場合、クラスタリングがどの程度成功したかを測定する特定の方法はありません。

したがって、グラウンド トゥルースがないと仮定すると、クラスター内の類似性を使用できます。これは、各クラスター内のノードの類似性を測定するときです。クラスターの数を指定する必要がないため、平均シフト クラスタリングを調べます。

于 2013-01-09T23:47:15.253 に答える