のデータセットがあり(user, product, review)
、それを mllib の ALS アルゴリズムにフィードしたいと考えています。
アルゴリズムでは、ユーザーと製品が数字である必要がありますが、私のものは文字列のユーザー名と文字列の SKU です。
現在、個別のユーザーと SKU を取得し、Spark の外部で数値 ID を割り当てています。
これを行うためのより良い方法があるかどうか疑問に思っていました。私が考えた 1 つのアプローチは、基本的に 1 から までを列挙するカスタム RDD を作成n
し、2 つの RDD で zip を呼び出すことです。