問題タブ [pyarrow]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
8990 参照

python - pyarrow を使用してパーティション分割された寄木細工のデータセットから特定のパーティションを読み取る

parquet 形式のやや大きな (〜 20 GB) パーティション分割されたデータセットがあります。を使用して、データセットから特定のパーティションを読み取りたいと思いpyarrowます。でこれを達成できると思ってpyarrow.parquet.ParquetDatasetいましたが、そうではないようです。ここに私が欲しいものを説明するための小さな例があります。

ランダム データセットを作成するには:

パーティション 1 のすべての値を読み取り、パーティション 2 の True のみを読み取りたいです。これpandas.read_parquetは不可能であり、常に列全体を読み取る必要があります。私は次のことを試しましたpyarrow

それもうまくいきません:

私はこれを次のpysparkように簡単に行うことができます:

以下に示すように:

または でこれを行うことができますpyarrowpandas、それともカスタム実装が必要ですか?

更新: Wes のリクエストにより、これは現在JIRAにあります。