小さな寄木細工のファイル(600)を含むディレクトリがあり、それらの寄木細工でETLを実行し、それらの寄木細工を各ファイルに128MBにマージしたかったのです。データを処理する最適な方法は何ですか。
parquet ディレクトリ内の各ファイルを読み取り、1 つのデータ フレームとして連結して groupBY を実行する必要がありますか? または寄木細工のディレクトリ名を dd.read_parquet に指定して処理しますか?
ファイルごとに読み取ると、画像として収まらない非常に大きなダッシュグラフが作成されるように感じます。これらの多くのスレッドでも機能すると思いますか?これはメモリエラーにつながります。
寄木細工のファイルを読み取り、dask データフレームとして処理するのに最適な方法はどれですか? ファイルごとに、またはディレクトリ全体を提供しますか??