2

JSON の分析データを 2 つのステップで parquet に変換する必要があります。大量の既存のデータについて、私は PySpark ジョブを作成して実行しています

df.repartition(*partitionby).write.partitionBy(partitionby).
    mode("append").parquet(output,compression=codec)

ただし、増分データには AWS Lambda を使用する予定です。おそらく、PySpark はやり過ぎなので、PyArrow を使用する予定です (不必要に Pandas が関与していることは承知していますが、より良い代替手段が見つかりませんでした)。だから基本的に:

import pyarrow.parquet as pq
pq.write_table(table, outputPath, compression='snappy',
    use_deprecated_int96_timestamps=True)

PySpark と PyArrow の両方で作成された Parquet ファイルに (Athena に関して) 互換性があるかどうかを知りたいですか?

4

1 に答える 1