推奨用の入力データは次のようになります。
[(u'97990079', u'18_34', 2),
(u'585853655', u'11_8', 1),
(u'1398696913', u'6_20', 1),
(u'612168869', u'7_16', 1),
(u'2272846159', u'11_17', 2)]
の形式に従っています(user_id, item_id, score)
。
私の理解が正しければ、spark の ALS はトレーニング前にuser_id
,item_id
を整数に変換する必要がありますか? もしそうなら、私が今考えることができる唯一の解決策は、辞書を使用して、すべてを整数にマップするuser_id
ことitem_id
です
dictionary for item_id : {'18_34': 1, '18_35':2, ...}
dictionary for user_id : {'97990079':1, '585853655':2, ...}
しかし、それを行うための他のエレガントな方法があるかどうか疑問に思っていましたか? ありがとう!