math - Apache Mahout のピアソン係数の背後にある動機は何ですか?

Question

この質問は、ユーザー間の類似性を測定するためにピアソンの係数を使用する Apache Mahout の推奨部分に関するものです。私の理解によると、ピアソンの係数がユーザー間の類似性を測定する方法は次のとおりです。

2 人のユーザーが 5 つの項目 a、b、c、d、e を評価したとします。彼らの評価が a1、b1、c1、d1、e1 および a2、b2、c2、d2、e2 であるとしましょう。ここで、ピアソンの係数は、点 (a1、a2)、(b1、b2)、(c1、c2)、(d1、d2)、および (e1、e2) を考慮した最小二乗直線近似の推定値を示します。これを行う主な目的は (他の場所で読んだことに基づいて)、現在のユーザーの評価を考慮して、任意のオブジェクトに対する他のユーザーの評価を予測できる精度を表すことであることを理解しています。ポイントが直線上にある場合は、現在のユーザーの評価から他の人の評価を予測できることを意味します。そのため、係数は 1 になります。一方、点が直線上にない場合、最小二乗適合は -1 から 1 のスケールで表されます。

さて、私の質問は、なぜ直線だけなのですか? たとえば、それらが放物線上にあるかどうかを判断し、それに応じて同様の係数を計算できないのはなぜですか (放物線がどれだけうまく適合するかについて)。直線の適合のみをチェックするのはなぜですか?

ありがとうアビシェクS

score 1 · Accepted Answer

それがピアソンの相関係数の定義方法です。

これは可能な類似性指標の 1 つであり、実際には 2 つの嗜好のセットが比例して一緒に移動する度合いを測定しています。この仮定がデータセットに適していると思われる場合、それは妥当な指標になります。そうでない場合は、別のメトリックを使用します。

確かに、他の方法で類似性を定義する類似性メトリックを実装できます。

しかし、実際には、ここで別の関係が意味を持つのはなぜでしょうか? 類似性は対称的であるべきであり、2 つの好みのセットがそれぞれ他方の 2 乗に比例することはありません。共通の線形関係を探すのが合理的だと思います。

もちろん、対数尤度比のように、このような関係を評価することとは関係のない類似性指標は他にもたくさんあります。

math - Apache Mahout のピアソン係数の背後にある動機は何ですか?

1 に答える 1

Related

Reference