4

ユーザーからいくつかのエントリがあり、このユーザーが私のウェブサイトで行ったインタラクションの数...

34 万行と 70 以上の列があり、Vaex を使用したいのですが、重複を削除するなどの単純なことを行うのに問題があります。

誰かがそれを行う方法について私を助けることができますか?

import pandas as pd

df = pd.DataFrame({'user': ['Bob', 'Bob', 'Alice', 'Alice', 'Alice', "Ralph", "Ralph"], 
                   'date': ['2013-12-05', '2014-02-05', '2013-11-07', '2014-04-22', '2014-04-30',  '2014-04-20', '2014-05-29'],
                   'interaction_num': ['1', '2', '1', '2', '3', '1','2']})

pandas.drop_duplicates(keep="last") 関数と同じ結果が欲しい

df.drop_duplicates('user', keep='last', inplace=True)

Vaex を使用して期待される結果は次のようになります。

    user    date    interaction_num
1   Bob     2014-02-05  2
4   Alice   2014-04-30  3
6   Ralph   2014-05-29  2
4

1 に答える 1