問題タブ [fastparquet]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-3.x - pyarrow 、 fastparquet をオフラインでインストールするには?
pyarrow、fastparquet をオフラインでインストールしたい。pipを使用してpythonパッケージをダウンロードするネットワークの問題があるため、pypi.org/project/pyarrow/#filesからpyarrowをダウンロードしてインストールしようとしましたが、エラーC:\Users\Public\pyarrow-0.17.1\setupが発生しました.py が見つかりません。アドバイスしてください。
ありがとうございました。
python - InvalidIndexError エラー マッピング タスク シリーズ
head
このマッピングは、最初の 100 行で呼び出すときに機能します。
ddf['val'] = ddf['myid'].map( val['val'] , meta=pd.Series(float) )
しかし、寄木細工に保存しようとすると:
エラーが表示されます: InvalidIndexError: Reindexing only valid with uniquely valued Index objects
。
しかし、(パンダシリーズに変換した後)私のインデックスをチェックすると、それはユニークです:val.index.duplicated().any()
is False
. また、インデックスは、マップ先のデータフレーム列と同じセットです: myid
. インデックスには null、nan、または None はありません。インデックスは int64 です。
更新:不思議なことに、元の ddf の各寄木細工のファイルを一度に 1 つずつロードすると、エラーにはなりません。一度に複数ロードするとエラーになります。
python - 分割された Parquet ファイルを Python (メモリ内) で DataFame に読み取る (列の型が配列の配列である)
環境
S3 で Parquet ファイルを分割しました。データを (メモリ内で) クエリして表示できるように、それらを読み取って DataFrame に連結したいと考えています。ここまでやったのですが、型 (array<array< double >>)の列のデータの 1 つがNoneに変換されます。他の列 (str、int の配列など) は正しく変換されます。その過程で何が欠けているのかわかりません。この変換中にデータが欠落しているか、データが存在するのにクエリ方法が間違っていると思います。
これまでに行った手順
クエリ結果
Athena を使用してクエリを実行できるため、データ (double の配列の配列) がファイルに存在することに注意してください。
python - Pythonでネストされた構造体Parquetファイルを読み取る方法は?
構造体のリストを含む寄木細工のファイルがあり、利用可能な python 寄木細工のライブラリのいずれかでそれを読み取ることができないようです。それらのいくつかは、「構造体のリスト」がまだサポートされていないことを示すエラーを返し、他のものは None オブジェクトで pandas データフレームを作成するだけです。誰かがこれを経験したことがあれば、それは大いに役立つでしょう。ここ数日、私はこれで頭を悩ませています。プログラムで何らかの方法でファイルを読み取るか、そのファイルを他の形式に変換してから読み取る他の方法はありますか?
Python ネイティブ サポートが必要です。または、Spark などの他のサービスの呼び出しや開始を伴わない Python を使用して C ライブラリを呼び出すことができます。
dask - fastparquet から正しい統計を取得できます
fastparquet を使用して S3 からファイルを読み取るときに、None 統計 (最小/最大) を取得しています。通話時
ほとんどの値は None で、一部の値は有効です。
ただし、他のフレームワークで同じファイルを読み取ると、すべての値の正しい最小値/最大値を取得できます。
すべての統計を取得するにはどうすればよいですか? ありがとう