問題タブ [apache-arrow]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
8990 参照

python - pyarrow を使用してパーティション分割された寄木細工のデータセットから特定のパーティションを読み取る

parquet 形式のやや大きな (〜 20 GB) パーティション分割されたデータセットがあります。を使用して、データセットから特定のパーティションを読み取りたいと思いpyarrowます。でこれを達成できると思ってpyarrow.parquet.ParquetDatasetいましたが、そうではないようです。ここに私が欲しいものを説明するための小さな例があります。

ランダム データセットを作成するには:

パーティション 1 のすべての値を読み取り、パーティション 2 の True のみを読み取りたいです。これpandas.read_parquetは不可能であり、常に列全体を読み取る必要があります。私は次のことを試しましたpyarrow

それもうまくいきません:

私はこれを次のpysparkように簡単に行うことができます:

以下に示すように:

または でこれを行うことができますpyarrowpandas、それともカスタム実装が必要ですか?

更新: Wes のリクエストにより、これは現在JIRAにあります。

0 投票する
1 に答える
4544 参照

python - Pandas DataFrame を In-Memory Feather との間で変換

pandas で IO ツールを使用 すると、aDataFrameをインメモリ フェザー バッファに変換できます。

ただし、同じバッファーを使用して DataFrame に戻す

エラーになります:

ArrowInvalid: フェザー ファイルではありません

DataFrame をメモリ内フェザー表現に変換し、それに応じて DataFrame に戻すにはどうすればよいですか?

事前のご検討とご対応をよろしくお願いいたします。

0 投票する
1 に答える
2592 参照

python - Python pyarrow を使用して Parquet ファイルからレコードをフィルタリングする方法

寄木細工のファイルから特定のレコードをフィルター処理しようとしています。私はpython pyarrowを使用しています。私はパンダでそれを行うことができました(以下のコードを参照)。問題は、大きな寄木細工のファイルに多くのメモリを必要とすることです。他のオプションを探しています - 何かアイデアはありますか?

ありがとう。