pyarrow parquetdf
を使用してデータセットとしてディスクに保存したい pandas DataFrame があるとします。
ディスク
上
table = pyarrow.Table.from_pandas(df)
pyarrow.parquet.write_to_dataset(table, root_path=some_path, partition_cols=['a',])
では、データセットは次のようになります
。
├── a=2
____├── 8bcfaed8986c4bdba587aaaee532370c.parquet
Q:データセットの書き込み中に、長い UUID のファイル名としての自動割り当てを無効にすることはできますか? 私の目的は、新しいバージョンの があるときに、ディスク上のデータセットを上書きできるようにすることですdf
。現在、データセットを再度書き込もうとすると、別の一意の [UUID].parquet ファイルが古いファイルの隣に配置され、同じ冗長データが含まれます。