問題タブ [pyarrow]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - pyarrow を使用した消費者と生産者のパターン
pandas データフレームの高速メモリ ストアとして pyarrow を使用して、マルチプロセス ベースのコンシューマー プロデューサー パターンを実装する最良の方法は何ですか?
現在、私は redis pub sub を使用していますが、より効率的な (より高速な) ソリューションがあると思いますか? 例を挙げていただけますか?
pandas - Python pandas_udf スパーク エラー
私はローカルでスパークをいじり始め、この奇妙な問題を見つけました
ここからこの例を取るhttps://databricks.com/blog/2017/10/30/introducing-vectorized-udfs-for-pyspark.html
このエラーが発生し続ける理由は何ですか?
python - pyarrow を使用して Amazon S3 で寄木細工ファイルを開く際のエラー
S3に保存されている寄木細工のファイルから単一の列データを読み取ることになっている次のコードがあります。
fs = s3fs.S3FileSystem()
data_set = pq.ParquetDataset(f"s3://{bucket}/{key}", filesystem=fs)
column_data = data_set.read(columns=[col_name])
そして、私はこの例外を取得します: validate_schemas self.schema = self.pieces[0].get_metadata(open_file).schema IndexError: list index out of range
pyarrow の最新バージョンにアップグレードしましたが、役に立ちませんでした
python - S3のpyarrowでparquetファイルを上書きする
S3 にある pyarrow で寄木細工のファイルを上書きしようとしています。ドキュメントを見ましたが、何も見つかりませんでした。
これが私のコードです:
mode = "overwrite"
write_to_dataset 関数にオプションのようなものはありますか?