hadoop - HDF5 ファイルを Parquet ファイルに変換するにはどうすればよいですか?

翻译自：https://stackoverflow.com/questions/41497528 2017-01-06T01:28:09.527

1322 次

pandas を使用して、約 800 GB の巨大なデータフレームを HDF5 に保存しましたpandas.HDFStore()。

import pandas as pd
store = pd.HDFStore('store.h5')
df = pd.Dataframe() # imagine the data being munged into a dataframe
store['df'] = df

これを Impala でクエリしたいと思います。このデータを Parquet に解析する簡単な方法はありますか? または、Impala では HDF5 を直接操作できますか? HDF5 のデータに別のオプションはありますか?

1 に答える 1