io - pyarrow.parquet でデータセットを書き込むときに、ファイル名の uuid の自動割り当てを上書きすることは可能ですか?

翻译自：https://stackoverflow.com/questions/52844511 2018-10-16T21:52:52.583

1451 次

pyarrow parquetdfを使用してデータセットとしてディスクに保存したい pandas DataFrame があるとします。ディスク上
table = pyarrow.Table.from_pandas(df) pyarrow.parquet.write_to_dataset(table, root_path=some_path, partition_cols=['a',]) では、データセットは次のようになります。 ├── a=2 ____├── 8bcfaed8986c4bdba587aaaee532370c.parquet

Q:データセットの書き込み中に、長い UUID のファイル名としての自動割り当てを無効にすることはできますか? 私の目的は、新しいバージョンのがあるときに、ディスク上のデータセットを上書きできるようにすることですdf。現在、データセットを再度書き込もうとすると、別の一意の [UUID].parquet ファイルが古いファイルの隣に配置され、同じ冗長データが含まれます。

io - pyarrow.parquet でデータセットを書き込むときに、ファイル名の uuid の自動割り当てを上書きすることは可能ですか?

1 に答える 1

Related

Reference