python - pyarrow と pyspark で作成された寄木細工のファイルは互換性がありますか?

翻译自：https://stackoverflow.com/questions/48314880 2018-01-18T06:11:15.590

3054 次

JSON の分析データを 2 つのステップで parquet に変換する必要があります。大量の既存のデータについて、私は PySpark ジョブを作成して実行しています

df.repartition(*partitionby).write.partitionBy(partitionby).
    mode("append").parquet(output,compression=codec)

ただし、増分データには AWS Lambda を使用する予定です。おそらく、PySpark はやり過ぎなので、PyArrow を使用する予定です (不必要に Pandas が関与していることは承知していますが、より良い代替手段が見つかりませんでした)。だから基本的に：

import pyarrow.parquet as pq
pq.write_table(table, outputPath, compression='snappy',
    use_deprecated_int96_timestamps=True)

PySpark と PyArrow の両方で作成された Parquet ファイルに (Athena に関して) 互換性があるかどうかを知りたいですか?

1 に答える 1