クエリ ログから推奨システムを構築しています。クエリログごとに、ユーザーがクリックしたリンクに関するデータがあります。ユーザーは、アクセスしたリンクに対して評価を提供しません。「これをクリックしたら、他の似たようなユーザーが試したこれを試してみてください」と提案するレコメンデーション システムを作成しようとしています。私は Apache Spark - MLLib を調査して、目的のために協調フィルタリングを使用しています。残念ながら、ALS アルゴリズムは「評価」データを取ります。
これが私がオンラインで得た解決策の1つです:
「レコメンデーションが必要なページごとに、そのページを閲覧したすべてのユーザーを検索します。次に、それらのユーザーごとに、閲覧した他のすべてのページを検索します。次に、各ページを閲覧したユーザーの数を数えます。このデータ セットのページに移動し、カウントが最も高いものを推奨事項として使用してください。」
ユーザーは、このアプローチが遅いことを示唆しています。
ランキング データを「偽造」する良い方法があるかどうか、またはランキング データを必要としない一般的なオープン ソースの実装があるかどうか疑問に思っていました。