ピアソン相関ではなくコサイン類似度の使用を検討することをお勧めします。この問題に悩まされることはなく、推奨システムの文献で広く使用されています。
これに対する標準的な解決策は、Herlocker らによって説明されています。「近隣ベースの協調フィルタリング アルゴリズムにおける設計選択の経験的分析」では、ピアソン相関を「減衰」して、小さな共同評価セットを持つユーザー間の過度に高い相関を修正します。基本的に、ピアソン相関に 1 とcc /50の小さい方を掛けます。ここで、 ccは両方のユーザーが評価したアイテムの数です。その結果、少なくとも 50 個の共通点がある場合、類似性はそのままのピアソンになります。それ以外の場合は、共通に評価されたアイテムの数に比例してスケーリングされます。疑似相関 1 が類似度 0.02 に変わります。
50 は、ドメインとシステムに基づいて調整する必要がある場合があります。
コサイン類似度を使用することもできますが、これは同じようにこの制限に悩まされることはありません。 ただし、ユーザー間 CF の場合は、一般にピアソン相関が優先されます。
更新:最近の研究では、ユーザーベースの CF ではコサインの類似性が時期尚早に無視されていることがわかりました。コサイン類似度は、正規化されたデータに対して実行すると (コサイン類似度を計算する前に、各評価からユーザーの平均を減算します --- 結果は、自己減衰項が組み込まれていることを除いて、パーソン相関と非常によく似ています)、 「標準」環境。もちろん、可能であれば、独自のデータと環境でテストを行って、何が最適かを確認する必要があります。ここの論文: http://grouplens.org/node/479
免責事項: 私は、上記の Herlocker 論文を作成した研究室の学生です。