問題タブ [pyarrow]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - pyarrow を使用してパーティション分割された寄木細工のデータセットから特定のパーティションを読み取る
parquet 形式のやや大きな (〜 20 GB) パーティション分割されたデータセットがあります。を使用して、データセットから特定のパーティションを読み取りたいと思いpyarrow
ます。でこれを達成できると思ってpyarrow.parquet.ParquetDataset
いましたが、そうではないようです。ここに私が欲しいものを説明するための小さな例があります。
ランダム データセットを作成するには:
パーティション 1 のすべての値を読み取り、パーティション 2 の True のみを読み取りたいです。これpandas.read_parquet
は不可能であり、常に列全体を読み取る必要があります。私は次のことを試しましたpyarrow
:
それもうまくいきません:
私はこれを次のpyspark
ように簡単に行うことができます:
以下に示すように:
または でこれを行うことができますpyarrow
かpandas
、それともカスタム実装が必要ですか?
更新: Wes のリクエストにより、これは現在JIRAにあります。