問題タブ [pyarrow]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
5362 参照

python - 大きなデータフレームを多くの寄木細工のファイルに効率的に分割する方法は?

次のデータフレームを検討してください

このデータフレームを多くの寄木細工のファイルに書き込む必要があります。もちろん、次のように動作します。

私の問題は、結果の(単一の)parquetファイルが大きくなりすぎることです。

どうすれば効率的に (メモリの観点から、速度の観点から)書き込みdaily寄木細工のファイルに分割する (そしてsparkフレーバーを維持する) ことができますか? sparkこれらの日次ファイルは、後で並行して読みやすくなります。

ありがとう!