recommendation-engine - ユーザーベースのCFまたはアイテムベースのCFが推奨を行うには、どのくらいのデータが必要ですか？

Question

ユーザーCF、アイテムCFが推奨を行うには、どのくらいのデータが必要ですか？

小さなデータセットを手動で作成したので、アルゴリズムがどのように機能しているかをよく理解できます。
私が作成した小さなデータセットの場合、Slope-Oneは推奨を提供できますが、UserCFまたはItemCFは推奨を提供できないことがわかりました。

その背後にある理由は何ですか？
データ量のしきい値はどれくらいですか？

score 1 · Accepted Answer

ユーザーベースおよびアイテムベースの CF では、データセットのサイズは非常に小さい場合があります。重要な部分は、データセット内のアイテムとユーザーの間のマッピングの頻度です。ユーザーがデータセットに 1 回だけ存在する場合、ユーザーベースの cf はおそらく推奨事項を提供しません。1 つの共通項目では、2 人のユーザーが隣人になるためのしきい値の類似性が提供されないためです。上記の説明はあくまで一例です。1000 データのような小規模なデータセットの場合、両方のレコメンダーが最も類似した項目と推奨方法に対して回答を提供します。ただし、はるかに小さいデータセットの場合、クエリされたユーザー/アイテム ID に関する十分な情報があるかどうかにかかわらず、データを手動で制御すると便利です。この中でリンク項目ベースの CF を作成するための非常に小さな制御されたデータセットとその仕組みを見つけることができます。この回答がお役に立てば幸いです。

score 1 · Accepted Answer

小さなデータセットの場合、ユーザー CF とアイテム CF は同じかもしれませんが、大きなデータの場合、ユーザー数がアイテム数より多い場合 (Netflix データセットと yahoo kddcup2011 データセットなど)、アイテム CF はユーザー CF よりもはるかに高速です。
Top N レコメンデーションの結果、User CF と Item CF の精度は同じですが、カバレッジが異なり、User CF レコメンデーションはロングテールアイテムのレコメンデーションに適していますが、アイテム CF のほうが多様性に優れています。

score 1 · Accepted Answer

Movielens、netflix、jester、kddcup のデータセットはすべて、誰でも利用できます。データセットの取得に問題がある場合は、http://code.google.com/p/recsyscode/wiki/datasetを確認してください

recommendation-engine - ユーザーベースのCFまたはアイテムベースのCFが推奨を行うには、どのくらいのデータが必要ですか？

3 に答える 3

Related

Reference