1

すべてのパーティションで dsak cudf データフレームに一意の id 列を作成する方法これまでのところ、次の手法を使用していますが、データを 10cr 行以上に増やすと、メモリ エラーが発生します。

def unique_id(df):
    rag = cupy.arrange(len(df))
    df['unique_id']=rag
    return df
    
part = data.npartitions
data = data.repartitions(npartitions=1)
cols_meta={c:str(data[c].dtype) for c in data.columns}
data = data.map_partitions(lambda df:unique_id(df), meta={**cols_meta,'unique_id'})
data = data.repartitions(npartitions=part)

他の方法やコードの変更がある場合は、提案してください。ご協力ありがとう御座います

4

2 に答える 2