mahout - Mahout の recommenditembased は既存のアイテムを返します

Question

mahout (v 0.9)のrecommendeditembasedを引数付きで使用しました

--input /usr_pref.csv --numRecommendations 10 --output /out/ --tempDir /temp1/ --similarityClassname SIMILARITY_PEARSON_CORRELATION

結果を確認したところ、ユーザーが既に評価したアイテムが推奨されていることがわかりました。なぜこのようなことが起こったのですか？

お時間をいただきありがとうございます。

ここで要求されたのは、推奨事項のスニペットです。

34175 [89005462:1.7624004,89017464:0.11477072,89011967:0.11375865,89007606:0.113421306,14103126:0.11096669,89002502:0.10888276,14103124:0.106607914,89011035:0.10636083,40111014:0.104254685,89016109:0.104254685]

およびユーザー設定からの対応する行:

34175,89005462,0.07596562

ドロップボックスに2つのファイルをアップロードしました。推奨事項: https://www.dropbox.com/s/uapzq0926y7427p/outusrpref_final ユーザー設定: https://www.dropbox.com/s/6nru9799udgrzl8/usr_pref_final.csv

更新私の問題は評価の範囲に関係しているという考えに基づいて、評価に100を掛けてから、2桁に切り捨てました. レコメンデーターを実行した後、重複は見つかりませんでした。それでも、なぜこれが起こるのか理解できません。

score -1 · Accepted Answer

例：

ここで、 mahout への入力としてフィードする入力ファイルを確認してください

例：input.csv

979    300    2.0

979    400    1.0

800    200    3.0

800    300    4.0

Recommendations.csv (この場合、userid 979、itemid 200、ratings 1.0)

979 [200:1.0]

800 [400:2.0]

注: Mahout は、ユーザー ID 979 に対してアイテム 200 のみを推奨します。アイテム 300 と 400 は推奨しません。これは、既に評価されて input.csv に保存されており、mahout への入力としてフィードされるためです。

同様に、2 つのファイルを開き、手動で 1 回クロスチェックします。すでに評価されているアイテムには、Mahout のおすすめはおすすめしないと思います。

提案: テスト用に、小さな入力データのセットを作成してテストし、追跡と識別が容易になるようにします。

mahout - Mahout の recommenditembased は既存のアイテムを返します

2 に答える 2

Related

Reference