1

Mahout にユーザー/アイテムの特徴マトリックスがあり、ユーザーの対数尤度類似性を導き出し、3 つのユーザー クラスターを識別したとします。今、一連のアイテム (同じフォーマットと同じアイテム セット) を持つ新しいユーザーがいます。類似性マトリックスと再クラスタリング手順を再計算せずに、これら 3 つのクラスターのいずれかを新しいユーザーに割り当てるにはどうすればよいですか? 問題は、現在のクラスターの重心を使用して、対数尤度類似度または任意の距離尺度を計算すると、重心がバイナリではなくなることです。k-medians を使用すると、それらがすべてゼロになるリスクがあります。これにアプローチする良い方法は何ですか?特に MAhout で使用することをお勧めするモデル ベース クラスタリングはありますか?

4

1 に答える 1

1

クラスターの分類器をトレーニングするのはどうですか?

ゼロを回避するには、代わりにk-medoidを使用できます。ここでの主な違いは、k-medoidがデータセットから最も中心的なオブジェクトを選択するため、実際にはデータオブジェクトと同じスパース性を持つことです。

私はMahoutを使用していないので、これがMahoutで利用できるかどうかはわかりません。私の知る限り、k-meansやk-mediansよりもはるかに計算量が多くなります。

于 2012-11-24T11:13:47.727 に答える