1

私は次のsparkdataframeを持っています:

id weekly_sale
1    40000
2    120000
3    135000
4    211000
5    215000
6    331000
7    337000

week_sale 列のアイテムが次のどの間隔に収まるかを確認する必要があります。

under 100000
between 100000 and 200000
between 200000 and 300000
more than 300000

したがって、私の望ましい出力は次のようになります。

id weekly_sale  label
1    40000       under 100000    
2    120000      between 100000 and 200000
3    135000      between 100000 and 200000
4    211000      between 200000 and 300000
5    215000      between 200000 and 300000
6    331000      more than 300000
7    337000      more than 300000

pyspark、spark.sql、および Hive コンテキストの実装が役に立ちます。

4

1 に答える 1