BINARY ユーザー/アイテム機能マトリックスを含む大規模なデータ セットがあります。
- ユーザーとアイテムの両方をクラスター化する必要があります。とにかく、Mahout でそれらを同時に行う方法はありますか?
- さらに重要なことは、対数尤度を類似度の尺度として使用する場合、データをクラスター化するためにそのような距離メトリックを実際にサポートするクラスター化アルゴリズムはどれでしょうか?
BINARY ユーザー/アイテム機能マトリックスを含む大規模なデータ セットがあります。
いいえ、ユーザーとアイテムによるクラスタリングは別のプロセスです。精神的にはまったく同じプロセスですが、2 つの異なる方法を適用しただけです。
Mahout 内でより具体的な回答が必要な場合は、クラスタリングに関連するいくつかの異なる部分があるため、使用しているコードの部分について詳しく説明する必要があります。
プロジェクトにはいくつかの凝集クラスタリングのピースがあり、これはどの類似性指標でも機能します。私が知っている他の実装は、{0,1} を超えるベクトルではなく、連続したベクトル空間を想定して、間違いなく「k-means」の種類です。k-medoids のようなアルゴリズムが必要になると思いますが、これは私が知っているプロジェクトにはありません。