machine-learning - Mahout の類似性戦略の違い

Question

mahoutのrecommendeditembasedアルゴリズムを使用しています。利用可能なすべての --similarity クラスの違いは何ですか? アプリケーションに最適な選択を知る方法は? これらは私の選択です：

SIMILARITY_COOCCURRENCE
SIMILARITY_LOGLIKELIHOOD
SIMILARITY_TANIMOTO_COEFFICIENT
SIMILARITY_CITY_BLOCK
SIMILARITY_COSINE
SIMILARITY_PEARSON_CORRELATION       
SIMILARITY_EUCLIDEAN_DISTANCE

それぞれどういう意味ですか？

score 3 · Accepted Answer

私はそれらのすべてに精通しているわけではありませんが、いくつかはお手伝いできます。

共起とは、同じユーザーに 2 つのアイテムが発生する頻度です。http://en.wikipedia.org/wiki/共起

対数尤度は、推奨する特性を考慮してアイテムが推奨される確率の対数です。http://en.wikipedia.org/wiki/対数尤度

谷本はよくわからん

市区町村は、市松模様の都市にいるようにしか移動できないと仮定した場合の 2 つのインスタンス間の距離です。http://en.wikipedia.org/wiki/Taxicab_geometry

コサイン類似度は、2 つの特徴ベクトル間の角度のコサインです。http://en.wikipedia.org/wiki/Cosine_similarity

ピアソン相関は、標準偏差によって正規化された特徴の共分散です。http://en.wikipedia.org/wiki/Pearson_correlation_coefficient

ユークリッド距離は、2 点間の標準的な直線距離です。http://en.wikipedia.org/wiki/Euclidean_distance

どちらがアプリケーションに最適かを判断するには、データとその意味についてある程度の直感が必要になる可能性が高くなります。データが連続値の特徴である場合、ユークリッド距離やピアソン相関などよりも理にかなっています。都市ブロックまたはコサインの類似性に沿ったものよりも離散値が多い場合は、より理にかなっている可能性があります。

もう 1 つのオプションは、相互検証実験を設定して、各類似性メトリックがどの程度うまく機能して目的の出力値を予測し、相互検証結果から最適に機能するメトリックを選択するかを確認することです。

machine-learning - Mahout の類似性戦略の違い

2 に答える 2

Related

Reference