問題タブ [pyarrow]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - pyarrow と pyspark で作成された寄木細工のファイルは互換性がありますか?
JSON の分析データを 2 つのステップで parquet に変換する必要があります。大量の既存のデータについて、私は PySpark ジョブを作成して実行しています
ただし、増分データには AWS Lambda を使用する予定です。おそらく、PySpark はやり過ぎなので、PyArrow を使用する予定です (不必要に Pandas が関与していることは承知していますが、より良い代替手段が見つかりませんでした)。だから基本的に:
PySpark と PyArrow の両方で作成された Parquet ファイルに (Athena に関して) 互換性があるかどうかを知りたいですか?
python - PyArrowからParquetファイルを書き込むときに論理型を指定する方法は?
PyArrowを使用して、Python でいくつかのPandasデータフレームからParquetファイルを書き込んでいます。
寄木細工のファイルに書き込まれる論理型を指定する方法はありますか?
たとえば、np.uint32PyArrow に列を書き込むと、parquet ファイルに INT64 列が生成されますが、fastparquetモジュールを使用して同じ列を書き込むと、UINT_32 の論理型を持つ INT32 列が生成されます (これは、私が PyArrow から求めている動作です)。 .
例えば:
これは以下を出力します:
他の列タイプでも同様の問題が発生しているため、PyArrow を使用して記述するときに使用される論理タイプを指定する一般的な方法を実際に探しています。