0

pandas を使用して、約 800 GB の巨大なデータフレームを HDF5 に保存しましたpandas.HDFStore()

import pandas as pd
store = pd.HDFStore('store.h5')
df = pd.Dataframe() # imagine the data being munged into a dataframe
store['df'] = df

これを Impala でクエリしたいと思います。このデータを Parquet に解析する簡単な方法はありますか? または、Impala では HDF5 を直接操作できますか? HDF5 のデータに別のオプションはありますか?

4

1 に答える 1