別の行に基づいていくつかの行を更新する方法を理解しようとしています。
たとえば、次のようなデータがあります
Id | useraname | ratings | city
--------------------------------
1, philip, 2.0, montreal, ...
2, john, 4.0, montreal, ...
3, charles, 2.0, texas, ...
同じ都市のユーザーを同じ groupId (1 または 2) に更新したい
Id | useraname | ratings | city
--------------------------------
1, philip, 2.0, montreal, ...
1, john, 4.0, montreal, ...
3, charles, 2.0, texas, ...
RDD または Dataset でこれを達成するにはどうすればよいですか?
完全を期すために、Id
が String の場合、dense ランクは機能しないのでしょうか?
例えば ?
Id | useraname | ratings | city
--------------------------------
a, philip, 2.0, montreal, ...
b, john, 4.0, montreal, ...
c, charles, 2.0, texas, ...
したがって、結果は次のようになります。
grade | useraname | ratings | city
--------------------------------
a, philip, 2.0, montreal, ...
a, john, 4.0, montreal, ...
c, charles, 2.0, texas, ...