algorithm - Hadoop を使用した相関/クラスタリングの記録

翻译自：https://stackoverflow.com/questions/17728371 2013-07-18T15:54:44.960

886 次

当社の Hadoop クラスターは、毎日数テラバイトの Web ログを取り込みます。各ログレコードには、ユーザーの IP アドレス、Cookie ID などの情報が含まれています。ただし、異なる IP アドレスと Cookie ID を 1 人の物理ユーザー (自宅/職場のコンピューターなど) に対応させることができます。レコードの任意のペアの一致スコアを計算する関数を設計しました。スコアが高いほど、両方のレコードが 1 人の物理ユーザーに対応する可能性が高くなります。

目標は、スコアリング機能を使用してすべてのレコードを 1 人の物理ユーザーに対応すると思われるグループに分割し、グループ内のすべてのレコードを一意のグループ ID (物理ユーザー ID) でマークすることです。Hadoop/Mahout を使用してこのロジックを実装する最良の方法は何ですか?

algorithm - Hadoop を使用した相関/クラスタリングの記録

1 に答える 1

Related

Reference