多くのユーザー (1,000 万人以上) のリストがあります。各ユーザーは、ユーザー ID とそれに続く 10 個の浮動小数点数 (好みを示す) で表されます。mapreduce に基づくコサイン類似度を使用して、ユーザー類似度行列を効率的に計算したいと考えています。ただし、値は浮動小数点数であるため、mapreduce フレームワークでキーを決定するのは困難です。助言がありますか?
多くのユーザー (1,000 万人以上) のリストがあります。各ユーザーは、ユーザー ID とそれに続く 10 個の浮動小数点数 (好みを示す) で表されます。mapreduce に基づくコサイン類似度を使用して、ユーザー類似度行列を効率的に計算したいと考えています。ただし、値は浮動小数点数であるため、mapreduce フレームワークでキーを決定するのは困難です。助言がありますか?