python - DASK_CUDF で一意の ID 列を作成する方法

翻译自：https://stackoverflow.com/questions/67599701 2021-05-19T08:37:15.550

98 次

すべてのパーティションで dsak cudf データフレームに一意の id 列を作成する方法これまでのところ、次の手法を使用していますが、データを 10cr 行以上に増やすと、メモリエラーが発生します。

def unique_id(df):
    rag = cupy.arrange(len(df))
    df['unique_id']=rag
    return df
    
part = data.npartitions
data = data.repartitions(npartitions=1)
cols_meta={c:str(data[c].dtype) for c in data.columns}
data = data.map_partitions(lambda df:unique_id(df), meta={**cols_meta,'unique_id'})
data = data.repartitions(npartitions=part)

他の方法やコードの変更がある場合は、提案してください。ご協力ありがとう御座います

python - DASK_CUDF で一意の ID 列を作成する方法

2 に答える 2

Related

Reference