クラスタリングの適切な類似度を見つけるのに問題があります。約 3000 個のセットの配列があり、各セットには特定のドメインの機能 (数字、色、日、アルファベットなど) が含まれています。私の問題を例で説明します。
2 つの配列 (a1 と a2) しかなく、それらの間の類似性を見つけたいとします。各配列には 4 つのセットが含まれ (実際の問題では、配列ごとに 250 セット (ドメイン) あります)、セットは空にすることができます。
a1: {a,b}, {1,4,6}, {mon, tue, wed}, {red, blue,green}
a2: {b,c}, {2,4,6}, {}, {blue, black}
Jaccardインデックス (J として示される)を使用した類似度測定が付属しています。
sim(a1,a2) = [J(a1[0], a2[0]) + J(a1[1], a2[1]) + ... + J(a1[3], a2[3])]/4
注: 0 と 1 の間の類似性を維持するために、セットの総数 (上の例では 4) で割ります。
Is this a proper similarity measure and are there any flaws in this approach
. 関連するドメイン間の類似性(つまり、色と色など)を比較したいので、各セットに個別に Jaccard インデックスを適用しています。
私の問題に対する他の適切な類似性尺度を認識していません。さらに遠く、can I use this similarity measure for clustering purpose?