KMeansClusteringアプローチを使用していくつかのドキュメントをクラスター化しようとしていたところ、クラスターが正常に作成されました。推奨事項のために、特定のドキュメントに対応するクラスター ID を保存しました。したがって、特定のドキュメントに類似したドキュメントを推奨したいときはいつでも、特定のクラスター内のすべてのドキュメントを照会し、クラスターからn 個のランダムなドキュメントを返します。ただし、クラスターからランダムなドキュメントを返すことは適切ではないように思われ、問題のドキュメントに最も近いドキュメントを返す必要があることをどこかで読みました。
そこで、ドキュメント間の距離を計算するための検索を開始し、各ドキュメントに最も類似した 10 個のドキュメントを距離順に並べて返すRowSimilarityアプローチに出くわしました。現在、このアプローチは、ドキュメント間の距離を計算するために、LogLikelihood などの類似性メトリックに依存しています。
今、私の質問はこれです。両方のアプローチが類似距離メトリックを使用してドキュメント間の距離を計算することを考えると、クラスタリングは RowSimilarity よりもどのように優れていますか/劣っていますか?
私が達成しようとしているのは、同様の製品を推奨するために、タイトルやその他のテキスト プロパティに基づいて製品をクラスタリングしようとしていることです。どんな助けでも大歓迎です。