問題タブ [apache-arrow]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - pyarrow を使用してパーティション分割された寄木細工のデータセットから特定のパーティションを読み取る
parquet 形式のやや大きな (〜 20 GB) パーティション分割されたデータセットがあります。を使用して、データセットから特定のパーティションを読み取りたいと思いpyarrow
ます。でこれを達成できると思ってpyarrow.parquet.ParquetDataset
いましたが、そうではないようです。ここに私が欲しいものを説明するための小さな例があります。
ランダム データセットを作成するには:
パーティション 1 のすべての値を読み取り、パーティション 2 の True のみを読み取りたいです。これpandas.read_parquet
は不可能であり、常に列全体を読み取る必要があります。私は次のことを試しましたpyarrow
:
それもうまくいきません:
私はこれを次のpyspark
ように簡単に行うことができます:
以下に示すように:
または でこれを行うことができますpyarrow
かpandas
、それともカスタム実装が必要ですか?
更新: Wes のリクエストにより、これは現在JIRAにあります。
python - Pandas DataFrame を In-Memory Feather との間で変換
pandas で IO ツールを使用 すると、aDataFrame
をインメモリ フェザー バッファに変換できます。
ただし、同じバッファーを使用して DataFrame に戻す
エラーになります:
ArrowInvalid: フェザー ファイルではありません
DataFrame をメモリ内フェザー表現に変換し、それに応じて DataFrame に戻すにはどうすればよいですか?
事前のご検討とご対応をよろしくお願いいたします。
python - Python pyarrow を使用して Parquet ファイルからレコードをフィルタリングする方法
寄木細工のファイルから特定のレコードをフィルター処理しようとしています。私はpython pyarrowを使用しています。私はパンダでそれを行うことができました(以下のコードを参照)。問題は、大きな寄木細工のファイルに多くのメモリを必要とすることです。他のオプションを探しています - 何かアイデアはありますか?
ありがとう。