当社の Hadoop クラスターは、毎日数テラバイトの Web ログを取り込みます。各ログ レコードには、ユーザーの IP アドレス、Cookie ID などの情報が含まれています。ただし、異なる IP アドレスと Cookie ID を 1 人の物理ユーザー (自宅/職場のコンピューターなど) に対応させることができます。レコードの任意のペアの一致スコアを計算する関数を設計しました。スコアが高いほど、両方のレコードが 1 人の物理ユーザーに対応する可能性が高くなります。
目標は、スコアリング機能を使用してすべてのレコードを 1 人の物理ユーザーに対応すると思われるグループに分割し、グループ内のすべてのレコードを一意のグループ ID (物理ユーザー ID) でマークすることです。Hadoop/Mahout を使用してこのロジックを実装する最良の方法は何ですか?