HDF5ファイルのリストからdask.dataframeを作成する正しい方法は何ですか? 私は基本的にこれをやりたいのですが、データフレームで
dsets = [h5py.File(fn)['/data'] for fn in sorted(glob('myfiles.*.hdf5')]
arrays = [da.from_array(dset, chunks=(1000, 1000)) for dset in dsets]
x = da.stack(arrays, axis=0)
簡単に言えば、個々のファイルを で読み取ることができる場合は、と でpd.read_hdf
これを行うことができます。dd.read_hdf
dd.concat
import dask.dataframe as dd
dfs = [dd.read_hdf(fn, '/data') for fn in sorted(glob('myfiles.*.hdf5')]
df = dd.concat(dfs)
dd.read_hdf
しかし、このイディオムを内部で直接サポートすることは便利です (そして簡単です) 。これについては問題を作成しており、数日以内に解決できるように努めます。