1

pyspark で何らかの条件に基づいて新しい列を作成したいと考えています。私のデータフレーム -

    id          create_date                txn_date
    1           2019-02-23 23:27:42        2019-08-18 00:00:00
    2           2019-08-24 00:10:18        2019-08-24 00:00:00
    3           2019-09-16 17:47:56        2018-07-23 00:00:00
    4           2019-09-24 01:31:21        2018-05-13 00:00:00
    5           2018-12-26 23:28:09        2019-07-15 00:00:00

すべての列は文字列形式です。私の状態は -

txn_date >= create_date。この条件に基づいて、新しい列「is_mem」を作成します。                

私の最終的なデータフレームは次のようになります-

   

    id          create_date                txn_date                    is_mem
    1           2019-02-23 23:27:42        2019-08-18 00:00:00           0
    2           2019-08-24 00:10:18        2019-09-24 00:00:00           1
    3           2019-09-16 17:47:56        2018-07-23 00:00:00           1
    4           2019-09-24 01:31:21        2018-05-13 00:00:00           1
    5           2018-12-26 23:28:09        2019-07-15 00:00:00           0

pysparkでそれを行う方法は?

4

1 に答える 1