私は次のsparkdataframeを持っています:
id weekly_sale
1 40000
2 120000
3 135000
4 211000
5 215000
6 331000
7 337000
week_sale 列のアイテムが次のどの間隔に収まるかを確認する必要があります。
under 100000
between 100000 and 200000
between 200000 and 300000
more than 300000
したがって、私の望ましい出力は次のようになります。
id weekly_sale label
1 40000 under 100000
2 120000 between 100000 and 200000
3 135000 between 100000 and 200000
4 211000 between 200000 and 300000
5 215000 between 200000 and 300000
6 331000 more than 300000
7 337000 more than 300000
pyspark、spark.sql、および Hive コンテキストの実装が役に立ちます。