machine-learning - 映画のジャンルのクラスタリング

Question

私はデータマイニングの分野の初心者であり、ジャンルグループを見つけるために映画データセットをクラスタリングしたいと考えています。私のデータセットには、86 本の映画に対して 26 の異なるジャンルがあります。映画を 26 ではなくいくつかのジャンルにグループ化するために、クラスタリングを採用したいと考えています。たとえば、クラスタリングアルゴリズムを実行した後、4 つのクラスタまたはデータセットに最適な小さなカウントが残ります。データセットを次のように定義しました M1 { G1,G2,.....G26} M2{G1,G2,.....G26} ここで、各ジャンル G1,....,G26 が値を保持できます0 または 1 のいずれかで、0 は不在、1 は存在します。次のステップは、その上で k-means クラスターを実行することです。ピアソン相関係数などに適切な距離関数を使用したいと考えています。

実験には MATLAB を使用しています。k=3,4,5,6 を使用して k-Means を実行してみました。また、階層的クラスタリングも実行しました。

どのクラスタリング結果が優れているかを判断する方法がわかりません。それを確認する方法は？私は初心者なので、MATLAB でバイナリ機能のクラスターをプロットする方法がわかりません。また、ピアソン相関係数をk-Meansの距離メトリックとして使用する方法も知りません。助けてください。

score 0 · Accepted Answer

評価は、クラスタリングに関して最も難しい部分です。

探しているものがわかっている場合は、クラスター分析を実行する必要はありません。

したがって、クラスタリングの客観的な「真実」などはありません。何をクラスターと見なすかは、個人のニーズに大きく依存します。それらをカスタムアルゴリズムにエンコードしない限り、クラスタリングアルゴリズムがまったく異なるものを計算する可能性があります。

たとえば、k-means は分散を最小化します。分散がクラスターの考えと一致するかどうか!

あなたのユースケースでは、既存の各ジャンルの割り当ての大部分がいずれかのクラスター内にあることを確認するのが最善の健全性チェックです。いたるところにある場合、クラスタリングはジャンルの概念によってクラスタリングされません。

score 0 · Accepted Answer

グラウンドトゥルースがない場合、クラスタリングがどの程度成功したかを測定する特定の方法はありません。

したがって、グラウンドトゥルースがないと仮定すると、クラスター内の類似性を使用できます。これは、各クラスター内のノードの類似性を測定するときです。クラスターの数を指定する必要がないため、平均シフトクラスタリングを調べます。

machine-learning - 映画のジャンルのクラスタリング

2 に答える 2

Related

Reference