MovieLensデータセットは、列を含むテーブルを提供します。
userid | movieid | tag | timestamp
次の場所で使用されているMovieLensデータセットを整理する方法を再現するのに問題があります。
タグ情報に基づく協調フィルタリング、Zhen、Li、Young
上記の論文の4.1データセットには、「タグ付け情報については、少なくとも3つの異なる映画に追加されたタグのみを保持します。ユーザーに関しては、少なくとも3つの異なるタグを使用したユーザーのみを保持します。タグ付けの履歴。映画の場合、少なくとも3つの異なるタグで注釈が付けられた映画のみを保持します。」
データベースにクエリを実行しようとしました:
select TMP.userid, count(*) as tagnum
from (select distinct T.userid as userid, T.tag as tag from tags T) AS TMP
group by TMP.userid
having tagnum >= 3;
3つの異なるタグにラベルを付けた1760人のユーザーのリストを取得しました。ただし、一部のタグは、少なくとも3つの異なる映画に追加されていません。
どんな助けでも大歓迎です。