2

寄木細工のファイルから特定のレコードをフィルター処理しようとしています。私はpython pyarrowを使用しています。私はパンダでそれを行うことができました(以下のコードを参照)。問題は、大きな寄木細工のファイルに多くのメモリを必要とすることです。他のオプションを探しています - 何かアイデアはありますか?

ありがとう。

df = pq.read_table(INPUT_FILE).to_pandas()
df.query("id not in (%s)" % str(IDS_TO_FILTER)[1:-1], inplace=True)
pq.write_table(pa.Table.from_pandas(df), OUTPUT_FILE)
4

1 に答える 1