この質問は、ユーザー間の類似性を測定するためにピアソンの係数を使用する Apache Mahout の推奨部分に関するものです。私の理解によると、ピアソンの係数がユーザー間の類似性を測定する方法は次のとおりです。
2 人のユーザーが 5 つの項目 a、b、c、d、e を評価したとします。彼らの評価が a1、b1、c1、d1、e1 および a2、b2、c2、d2、e2 であるとしましょう。ここで、ピアソンの係数は、点 (a1、a2)、(b1、b2)、(c1、c2)、(d1、d2)、および (e1、e2) を考慮した最小二乗直線近似の推定値を示します。これを行う主な目的は (他の場所で読んだことに基づいて)、現在のユーザーの評価を考慮して、任意のオブジェクトに対する他のユーザーの評価を予測できる精度を表すことであることを理解しています。ポイントが直線上にある場合は、現在のユーザーの評価から他の人の評価を予測できることを意味します。そのため、係数は 1 になります。一方、点が直線上にない場合、最小二乗適合は -1 から 1 のスケールで表されます。
さて、私の質問は、なぜ直線だけなのですか? たとえば、それらが放物線上にあるかどうかを判断し、それに応じて同様の係数を計算できないのはなぜですか (放物線がどれだけうまく適合するかについて)。直線の適合のみをチェックするのはなぜですか?
ありがとうアビシェクS