問題タブ [pyarrow]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 大きなデータフレームを多くの寄木細工のファイルに効率的に分割する方法は?
次のデータフレームを検討してください
このデータフレームを多くの寄木細工のファイルに書き込む必要があります。もちろん、次のように動作します。
私の問題は、結果の(単一の)parquet
ファイルが大きくなりすぎることです。
どうすれば効率的に (メモリの観点から、速度の観点から)書き込みをdaily
寄木細工のファイルに分割する (そしてspark
フレーバーを維持する) ことができますか? spark
これらの日次ファイルは、後で並行して読みやすくなります。
ありがとう!