1

ファッション e コマース サイトの mahout ベースのレコメンデーション エンジンを評価したいと考えています。一緒に購入したアイテムに関するショッピング カード情報を使用するため、ブーリアンです。適合率と再現率を使用してエンジンを評価したいと考えています。

1) これらのメトリクスを使用してレコメンデーション エンジンを評価するにはどうすればよいですか? アルゴリズムを変更するときにこれらの値を使用して、自分で確認することは可能ですか?

2) または、他のアルゴリズム (ブール値データも使用) と比較することは理にかなっていますか? はいの場合、利用可能な精度と再現率のベンチマークはありますか (たとえば、精度が x で再現率が y の場合、アルゴリズムは破棄または受け入れられるべきです)?

助けを見つけたいと思っています。よろしくお願いします。

4

1 に答える 1

1

情報検索のコンテキストでは、アイテムはブール値で処理されます。つまり、関連するか、関連しないかのいずれかです。Mahout の GenericRecommenderIRStatsEvaluator は、データ スプリッターを利用して、関連するアイテムを表す、既に優先されている (または購入した、購入した) アイテムからセットを作成します。mahout の場合、選択されたアイテムは上位 n 個の最も優先されるアイテムです。したがって、評価はブール値であるため、n 個の優先アイテムを選択するだけです。購入は好みのかなり強い兆候であるため、これにより評価自体が通常の5つ星評価よりも大幅に不正確になるとは思いません. そう:

1) 推奨事項を作成できた場合は、精度と再現率をメトリックとして使用して推奨事項を評価できます。

2)ベンチマークとしてランダムレコメンダーを使用しました(n個のランダムアイテムを選択するmahoutレコメンダーの実装にすぎません)。通常、精度と再現率がかなり低いため、アルゴリズムの精度と再現率がランダムなレコメンダーよりも低い場合は、おそらく破棄する必要があります。6000 人のアクティブ ユーザーのうち 80 人のユーザーのみにレコメンデーションを生成するレコメンデーションはほとんど役に立たないため、オフライン評価フェーズで確認するその他の指標はリーチです。

また、学術論文では、精度と再現率の指標が唯一の指標として使用されていると批判されていることにも注意してください。最終的に、ユーザーは、何が関連性があり、何が関連性がないかを決定します。また、他のレコメンダーよりもわずかに低い値を生成するレコメンダーは、必ずしも他のレコメンダーよりも悪いとは限りません。たとえば、より斬新で思いがけない推奨事項は、精度と再現率を重視する場合があります。

于 2015-05-24T20:17:12.717 に答える