0

私のプログラムでは、クラスタリングを使用して類似アイテムのサブセットを生成し、クラスターの類似度を判断する方法としてコサイン類似度を使用しています。たとえば、ユーザー1に3つのクラスターがあり、ユーザー2に3つのクラスターがある場合、すべてのクラスターが相互に比較されます。コサイン類似度を使用した9つの結果が生成されます。たとえば、[0.3、0.1、0.4、0.12、0.0、0.6、0.8、 1.0、0.22]

私の問題は、これらの結果に基づいて、これらの値を具体的な結果に変換して、これら2人のユーザーがどれほど類似しているかを示すにはどうすればよいかということです。

私が作成した簡単な方法は、すべての値を比較の数で割り、それらを合計して1つの値を取得することでしたが、これは非常に単純なアプローチです。

ありがとう、

なので


私が達成しようとしていることの基本的な説明は、ソーシャルブックマークWebサービスDelicious.comから、ブックマークとタグから、2人のユーザーがどれほど似ているかを判断できるかどうかです。

これまで、ユーザーのブックマークのタグと各タグの共起からクラスターを作成しました。たとえば、1つのクラスターは次のようになります。

fruit: (apple, 15), (orange, 9), (kiwi, 2)

また、別のユーザーが、タグから作成された同様のクラスターを持っている場合があります。

fruit: (apple, 12), (strawberry, 7), (orange, 3)

この数字は、保存されたブックマークで、この例では「fruit」というタグとタグが共起した回数を表します。

コサイン類似度を使用してこれらのクラスターを比較し、それらがどの程度類似しているかを判断しました。最初の質問から、多くのクラスター比較結果(すべてのユーザークラスターを別のユーザークラスターと比較)を使用して、結果を集計して意味のある結果。

コサイン類似性を不適切に使用している可能性が非常に高いですが、

4

2 に答える 2

3

問題の定義が不十分です...詳細があれば、一般的なアプローチの有効性(コサイン類似度の使用、計算方法など)と、最終結果の集計に使用されるアプローチ。

基本的に、クラスターの各ペア (Ca、Cb) に対して計算されたコサイン類似度の値を平均しています。ここで、Ca はユーザー A が「持っている」クラスターであり、Cb は B が「持っている」クラスターです。

これは、ユーザーが表示できるクラスターの「所有」の量を考慮した加重平均を使用することで大幅に改善できると思います。 おそらく、この「持っている」関係は純粋にブール値です。ユーザーが特定のクラスターを持っているか持っていないかのどちらかですが、[順序付けられた] カテゴリ属性または数値でさえも「持っている」ことを修飾できる可能性は十分にあります。 (相対的である: 特定のユーザーが持っている他のクラスターと比較して、特定のユーザーが持っている特定のクラスターのパーセンテージを言うか、絶対的である)。 各コサイン類似度は、ユーザー「A」が持つクラスターとユーザー「B」が持つクラスターに基づいているため、適切に正規化されていれば、

平均計算で対応するコサイン類似度項に適用される係数として、対応する「持つ」測定値の積を取ります。このように、2 人のユーザーが事実上類似しているが、そのうちの 1 人がたまたま 1 つまたは 2 つの余分なクラスターを持っていて、"having" 要素が非常に低い場合、集計結果はそれほど影響を受けません。

一般に、距離計算 (コサイン類似度など) や集計式 (平均や加重平均など) は、個々の次元のスケール(およびそれらの相対的な「重要度」)に非常に敏感です。このため、上記のような一般的なアドバイスを提供するのは難しい場合がよくあります。分類問題では理論が非常に重要ですが、式を「やみくもに」適用しないように注意する必要があります。木のために森を失うのは簡単です ;-)


質問を改善するために、これが私が一般的に理解していることです。質問を補足および修正して、達成しようとしていることとシステムの特性についてより良い「感触」を提供してください。そうすれば、より良い提案を受けることができます。 . ベクトルのようなオブジェクトであると想定し、クラスター
に割り当てられ ているアイテムがあります。サブセット キーワードは、各アイテムがおそらく 1 つだけのクラスターに属している (またはクラスターにまったく属していない可能性がある) ことを示唆していますが、これが事実であることを確認することをお勧めします。 また、ベクトルの次元が
何らかの形で正規化されています (アイテムの比較的重要ではない特性ですが、値の範囲が比較的広いため、コサイン類似度またはその他の距離測定値が歪められます)
。複数のクラスターを「持つ」ことができるユーザーがいます。特定のユーザーがクラスターを「持つ」ようになる方法と、クラスターを持っていることがブール値のプロパティ (持つか持たないか) にすぎないか、または何らかのカテゴリまたは数値の尺度があるかどうかを (主な行で) 知っておくとよいでしょう。 「持っている」
のクラスターの2つの「中心」間の類似性、またはそれ以外の何か...

于 2010-04-15T19:45:00.297 に答える
1

セットとクラスターを比較する方法は多数あります。ペアカウンティング F メジャー、ランド インデックス、... これらのほとんどは、個々の類似性を 1 つの全体的な類似性に要約するという問題を解決しました。

いくつかのポインタについては、これを参照してください。

http://en.wikipedia.org/wiki/Cluster_analysis#Evaluation_of_Clustering_Results

すべてを 1 つのスコアに要約することは人間の願望ですが、これが常に適切であるとは限らないことを理解する必要があります。これが非常に多くの指標がある理由です。それらにはすべて長所と短所があります。

于 2011-12-29T15:34:33.460 に答える