python - 寄木細工のファイルを読み取り、dask データフレームとして処理するのに最適な方法

翻译自：https://stackoverflow.com/questions/61884851 2020-05-19T06:49:55.163

101 次

小さな寄木細工のファイル（600）を含むディレクトリがあり、それらの寄木細工でETLを実行し、それらの寄木細工を各ファイルに128MBにマージしたかったのです。データを処理する最適な方法は何ですか。

parquet ディレクトリ内の各ファイルを読み取り、1 つのデータフレームとして連結して groupBY を実行する必要がありますか? または寄木細工のディレクトリ名を dd.read_parquet に指定して処理しますか?

ファイルごとに読み取ると、画像として収まらない非常に大きなダッシュグラフが作成されるように感じます。これらの多くのスレッドでも機能すると思いますか？これはメモリエラーにつながります。

寄木細工のファイルを読み取り、dask データフレームとして処理するのに最適な方法はどれですか? ファイルごとに、またはディレクトリ全体を提供しますか??

1 に答える 1