問題タブ [apache-arrow]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

332 問題

0 投票する

2 に答える

8990 参照

python - pyarrow を使用してパーティション分割された寄木細工のデータセットから特定のパーティションを読み取る

parquet 形式のやや大きな (〜 20 GB) パーティション分割されたデータセットがあります。を使用して、データセットから特定のパーティションを読み取りたいと思いpyarrowます。でこれを達成できると思ってpyarrow.parquet.ParquetDatasetいましたが、そうではないようです。ここに私が欲しいものを説明するための小さな例があります。

ランダムデータセットを作成するには:

パーティション 1 のすべての値を読み取り、パーティション 2 の True のみを読み取りたいです。これpandas.read_parquetは不可能であり、常に列全体を読み取る必要があります。私は次のことを試しましたpyarrow：

それもうまくいきません：

私はこれを次のpysparkように簡単に行うことができます:

以下に示すように：

またはでこれを行うことができますpyarrowかpandas、それともカスタム実装が必要ですか?

更新: Wes のリクエストにより、これは現在JIRAにあります。

2017-12-28T05:29:55.453

0 投票する

1 に答える

4544 参照

python - Pandas DataFrame を In-Memory Feather との間で変換

pandas で IO ツールを使用すると、aDataFrameをインメモリフェザーバッファに変換できます。

ただし、同じバッファーを使用して DataFrame に戻す

エラーになります:

ArrowInvalid: フェザーファイルではありません

DataFrame をメモリ内フェザー表現に変換し、それに応じて DataFrame に戻すにはどうすればよいですか?

事前のご検討とご対応をよろしくお願いいたします。

python python-3.x pandas feather apache-arrow

2018-06-08T13:31:01.650

0 投票する

1 に答える

2592 参照

python - Python pyarrow を使用して Parquet ファイルからレコードをフィルタリングする方法

寄木細工のファイルから特定のレコードをフィルター処理しようとしています。私はpython pyarrowを使用しています。私はパンダでそれを行うことができました（以下のコードを参照）。問題は、大きな寄木細工のファイルに多くのメモリを必要とすることです。他のオプションを探しています - 何かアイデアはありますか?

ありがとう。

python parquet apache-arrow

2018-07-30T10:45:12.387

1 2 3 4 5 6 7 8 9 10

問題タブ [apache-arrow]

python - pyarrow を使用してパーティション分割された寄木細工のデータセットから特定のパーティションを読み取る

python - Pandas DataFrame を In-Memory Feather との間で変換

python - Python pyarrow を使用して Parquet ファイルからレコードをフィルタリングする方法

Reference