pandas - daskデータフレームのmap_partitionsでディレクトリ名を取得

翻译自：https://stackoverflow.com/questions/60782493 2020-03-20T22:40:21.380

127 次

dask データフレームの結果に関するヘルプを探しています。144個のcsvファイルからの144個のデータフレームを持つdaskデータフレームがあります。これらのデータフレームの 1 つの列から最大値を取得し、それが属するフォルダーの名前と共に返したいと思います。探している結果を取得するために map_patitions を使用してきましたが、パーティションの結果に関連付けられた識別子がないため、結果を他の用途に適用することは困難です。どんな助けでも大歓迎です！私が使用しているコードのサンプルは次のとおりです。

ddf = dd.read_csv(f'{dir}/*/name.csv')['column 1'] # dir contains 144 folders, each with name.csv
def get_max (ddf):
    return  ddf.max(axis = 0) 
result = ddf.map_partitions(get_max).compute()
print(result)

結果には、必要な値が含まれており、「列 1」としてインデックスが付けられています。フォルダーの名前 (基本的には * フォルダー) をインデックスとして使用したいと思います。私の最終目標は、フォルダーまたはディレクトリ名のインデックスと関数から返される最大値の列を持つデータフレームです。

pandas - daskデータフレームのmap_partitionsでディレクトリ名を取得

1 に答える 1

Related

Reference