問題タブ [pyarrow]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
io - pyarrow.parquet でデータセットを書き込むときに、ファイル名の uuid の自動割り当てを上書きすることは可能ですか?
pyarrow parquetdf
を使用してデータセットとしてディスクに保存したい pandas DataFrame があるとします。
ディスク
上
table = pyarrow.Table.from_pandas(df)
pyarrow.parquet.write_to_dataset(table, root_path=some_path, partition_cols=['a',])
では、データセットは次のようになります
。
├── a=2
____├── 8bcfaed8986c4bdba587aaaee532370c.parquet
Q:データセットの書き込み中に、長い UUID のファイル名としての自動割り当てを無効にすることはできますか? 私の目的は、新しいバージョンの があるときに、ディスク上のデータセットを上書きできるようにすることですdf
。現在、データセットを再度書き込もうとすると、別の一意の [UUID].parquet ファイルが古いファイルの隣に配置され、同じ冗長データが含まれます。
python - pyarrow からのメモリリーク?
より大きなファイルを解析するには、多数の寄木細工のファイルに連続してループで書き込む必要があります。ただし、このタスクによって消費されるメモリは反復ごとに増加するようですが、一定のままであると予想されます (メモリに何も追加しないため)。これにより、スケーリングが難しくなります。
10 000 の寄木細工を作成し、それにループを追加する最小限の再現可能な例を追加しました。
このリークの原因とそれを防ぐ方法を知っている人はいますか?