3

HDF5ファイルのリストからdask.dataframeを作成する正しい方法は何ですか? 私は基本的にこれをやりたいのですが、データフレームで

dsets = [h5py.File(fn)['/data'] for fn in sorted(glob('myfiles.*.hdf5')]
arrays = [da.from_array(dset, chunks=(1000, 1000)) for dset in dsets]
x = da.stack(arrays, axis=0)
4

1 に答える 1

1

簡単に言えば、個々のファイルを で読み取ることができる場合は、と でpd.read_hdfこれを行うことができます。dd.read_hdfdd.concat

import dask.dataframe as dd
dfs = [dd.read_hdf(fn, '/data') for fn in sorted(glob('myfiles.*.hdf5')]
df = dd.concat(dfs)

dd.read_hdfしかし、このイディオムを内部で直接サポートすることは便利です (そして簡単です) 。これについては問題を作成しており、数日以内に解決できるように努めます。

于 2015-08-25T05:12:30.367 に答える