ユーザーCF、アイテムCFが推奨を行うには、どのくらいのデータが必要ですか?
小さなデータセットを手動で作成したので、アルゴリズムがどのように機能しているかをよく理解できます。
私が作成した小さなデータセットの場合、Slope-Oneは推奨を提供できますが、UserCFまたはItemCFは推奨を提供できないことがわかりました。
その背後にある理由は何ですか?
データ量のしきい値はどれくらいですか?
ユーザーCF、アイテムCFが推奨を行うには、どのくらいのデータが必要ですか?
小さなデータセットを手動で作成したので、アルゴリズムがどのように機能しているかをよく理解できます。
私が作成した小さなデータセットの場合、Slope-Oneは推奨を提供できますが、UserCFまたはItemCFは推奨を提供できないことがわかりました。
その背後にある理由は何ですか?
データ量のしきい値はどれくらいですか?
ユーザーベースおよびアイテムベースの CF では、データセットのサイズは非常に小さい場合があります。重要な部分は、データセット内のアイテムとユーザーの間のマッピングの頻度です。ユーザーがデータセットに 1 回だけ存在する場合、ユーザー ベースの cf はおそらく推奨事項を提供しません。1 つの共通項目では、2 人のユーザーが隣人になるためのしきい値の類似性が提供されないためです。上記の説明はあくまで一例です。1000 データのような小規模なデータセットの場合、両方のレコメンダーが最も類似した項目と推奨方法に対して回答を提供します。ただし、はるかに小さいデータセットの場合、クエリされたユーザー/アイテム ID に関する十分な情報があるかどうかにかかわらず、データを手動で制御すると便利です。この中でリンク 項目ベースの CF を作成するための非常に小さな制御されたデータセットとその仕組みを見つけることができます。この回答がお役に立てば幸いです。
小さなデータセットの場合、ユーザー CF とアイテム CF は同じかもしれませんが、大きなデータの場合、ユーザー数がアイテム数より多い場合 (Netflix データセットと yahoo kddcup2011 データセットなど)、アイテム CF はユーザー CF よりもはるかに高速です。
Top N レコメンデーションの結果、User CF と Item CF の精度は同じですが、カバレッジが異なり、User CF レコメンデーションはロングテール アイテムのレコメンデーションに適していますが、アイテム CF のほうが多様性に優れています。
Movielens、netflix、jester、kddcup のデータセットはすべて、誰でも利用できます。データセットの取得に問題がある場合は、http://code.google.com/p/recsyscode/wiki/datasetを確認してください