7

pickle ファイルを読み取って dask データフレームを作成しようとすると、エラーが発生します

import dask.dataframe as dd
ds_df = dd.read_pickle("D:\test.pickle")

AttributeError: 'module' object has no attribute 'read_pickle'

but  it works fine with read_csv

そして、パンダではいつものように成功しました。

そこで何か間違ったことをしている場合や、ピクルファイルをまったく読み取ってもデータフレームを作成できない場合は、修正してください。

4

1 に答える 1

12

dask.dataframe は Pandas を完全には実装していないことに注意してください。すべての pandas 操作が dask.dataframe に類似しているとは思わないでください。

pickle ファイルの一部のみを読み取る方法がないため、特に pickle ファイルからの読み取りを実装することは選択していません。すべてが一度にメモリにダンプされます。このため、大きなデータセットをディスクから 1 つずつ読み取る場合、pickle ファイルにはあま​​り価値がありません。

並列処理を探しているだけなら、pandas.read_pickle一緒に使用することをお勧めしますdask.dataframe.from_pandas

df = pd.read_pickle(...)
ddf = dd.from_pandas(df, npartitions=8)
于 2015-12-14T14:22:18.927 に答える