python - HDF5 ファイルのリストからの dask データフレームの作成

Question

HDF5ファイルのリストからdask.dataframeを作成する正しい方法は何ですか? 私は基本的にこれをやりたいのですが、データフレームで

dsets = [h5py.File(fn)['/data'] for fn in sorted(glob('myfiles.*.hdf5')]
arrays = [da.from_array(dset, chunks=(1000, 1000)) for dset in dsets]
x = da.stack(arrays, axis=0)

score 1 · Accepted Answer

簡単に言えば、個々のファイルをで読み取ることができる場合は、とでpd.read_hdfこれを行うことができます。dd.read_hdfdd.concat

import dask.dataframe as dd
dfs = [dd.read_hdf(fn, '/data') for fn in sorted(glob('myfiles.*.hdf5')]
df = dd.concat(dfs)

dd.read_hdfしかし、このイディオムを内部で直接サポートすることは便利です (そして簡単です) 。これについては問題を作成しており、数日以内に解決できるように努めます。

python - HDF5 ファイルのリストからの dask データフレームの作成

1 に答える 1

Related

Reference