0

KMeansClusteringアプローチを使用していくつかのドキュメントをクラスター化しようとしていたところ、クラスターが正常に作成されました。推奨事項のために、特定のドキュメントに対応するクラスター ID を保存しました。したがって、特定のドキュメントに類似したドキュメントを推奨したいときはいつでも、特定のクラスター内のすべてのドキュメントを照会し、クラスターからn 個のランダムなドキュメントを返します。ただし、クラスターからランダムなドキュメントを返すことは適切ではないように思われ、問題のドキュメントに最も近いドキュメントを返す必要があることをどこかで読みました。

そこで、ドキュメント間の距離を計算するための検索を開始し、各ドキュメントに最も類似した 10 個のドキュメントを距離順に並べて返すRowSimilarityアプローチに出くわしました。現在、このアプローチは、ドキュメント間の距離を計算するために、LogLikelihood などの類似性メトリックに依存しています。

今、私の質問はこれです。両方のアプローチが類似距離メトリックを使用してドキュメント間の距離を計算することを考えると、クラスタリングは RowSimilarity よりもどのように優れていますか/劣っていますか?

私が達成しようとしているのは、同様の製品を推奨するために、タイトルやその他のテキスト プロパティに基づいて製品をクラスタリングしようとしていることです。どんな助けでも大歓迎です。

4

2 に答える 2

0

類似性は距離と同じではありません。一方が大きく、他方が小さいということです。クラスタリングは、距離を計算することと同じではありません。最初に、クラスタリングの問題があるかどうかを判断する必要があります。あなたの発言に基づいて、クラスタリングの問題があるようには聞こえません。したがって、k-means は使用しないでください。

于 2012-06-07T11:57:39.073 に答える
0

クラスタリングは、分類や推奨の単なる変形ではありません。それは別の分野です。

クラスター分析を行っているときは、データの構造を発見する必要があります。しかし、実際には、見つけた構造を分析する必要があります。

現在、k-means は実際にはドキュメント用ではありません。これは、データ セットをk 個のボロノイ セルに最適に近い分割を見つけようとします。ボロノイ セルがデータの適切な分割であると信じる正当な理由がない限り、このアルゴリズムはほとんど役に立たない可能性があります。結果を返すからといって、その結果が有用であることを示すものではありません。

ドキュメントの場合、ユークリッド距離 (および k-means は実際にはユークリッド距離を最適化しています) は通常、ほとんど意味がありません。ベクトルは非常にまばらであり、k-means クラスターの中心は、不可能な (したがって無意味な) 「平均的なドキュメント」に似ていることがよくあります。

また、k の適切な値を見つける必要性や、Lloyds の k-means 近似の近似である可能性が高い Mahout の実装については、まだ始めていません。クラスターサイズも確認しましたか?このような状況では、k-means はしばしば縮退した結果を生成します。たとえば、1 個または 0 個の要素を含むほぼすべてのクラスターと、残りを含むメガクラスターです。この状況では、実際にはデータベースからランダムなドキュメントだけを返す可能性があります...

使えるからといって、役に立つとは限りません。アプローチの個々のステップを必ず検証してください。たとえば、クラスターが何らかの形で有用で賢明であるかどうかなどです。

于 2012-06-07T14:54:24.417 に答える