python - Pyspark で、行が 0 から 1 に変化したときにリセットされ、すべてが 1 のときにインクリメントするシーケンスを作成するにはどうすればよいですか?

翻译自：https://stackoverflow.com/questions/67472027 2021-05-10T14:09:34.040

60 次

このような pyspark データフレームがあり、次のように SEQ 出力が必要です。

R_ID    ORDER   SC_ITEM seq
A   1       0
A   3   1   1
A   4   1   2
A   5   1   3
A   6   1   4
A   7   1   5
A   8   1   6
A   9   1   7
A   10  0   0
A   11  1   1
A   12  0   0
A   13  1   
A   14  0   
A   15  1   1
A   16  1   2
A   17  1   3
A   18  1   4
A   19  1   5
A   20  1   6
A   21  0   0
A   22  0   0
B   1   0   0
B   2   1   1
C   1   1   1
C   2   1   2

データが正しく表示されているかどうかはわかりません。添付の写真:ここに画像の説明を入力してください

私はこのようなことをしました:

RN = Window().orderBy(lit('A'))


.when(((F.col("R_ID")==(lag(F.col("R_ID"),1).over(RN))) & (F.col("SC_ITEM")== 1)), (F.col("SC_ITEM") + (lag(F.col("SEQ"),1).over(RN))))\

SEQをリードまたはラグできるかどうかはわかりません。これを行う方法を助けてください

python - Pyspark で、行が 0 から 1 に変化したときにリセットされ、すべてが 1 のときにインクリメントするシーケンスを作成するにはどうすればよいですか?

0 に答える 0

Related

Reference