問題タブ [fastparquet]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - fastparquet で寄木細工のファイルを読み取ることができませんが、pyarrow で動作します - nullable ints
現在、次のようなコードを実行しています。
ファイルが大きいため、メモリ消費の問題が発生していたので、調査したいと思いましたfastparquet
。
エンジンを切り替えると:
この行は、次のようなエラーをスローします。
null を含む整数フィールドがあるため、これが発生していると思います。これがサポートされていないというドキュメントは見つかりません。
なぜこれが起こっているのか、または fastparquet を使用している間に回避する方法についてのアイデアはありますか?
python - 配列を使用した寄木細工のファイルの読み取り
Dask を使用して、PySpark によって生成された Parquet ファイルを読み取っています。列の 1 つは辞書のリスト (つまりarray<map<string,string>>'
) です。df の例は次のとおりです。
を使用するengine='fastparquet
と、Dask は他のすべての列を正常に読み取りますがNone
、複合型の列に対して s の列を返します。を設定するとengine='pyarrow'
、次の例外が発生します。
多くのグーグル検索により、ネストされた配列を使用した列の読み取りが現在実際にはサポートされていないことが明らかになりました。これを処理する最善の方法が何であるかは完全にはわかりません。私のオプションは次のとおりです。
json
標準ライブラリを使用して列を解析するように dask/fastparquet に指示する方法もあります。スキーマはシンプルで、可能であればそれでうまくいきます- 出力を生成した Spark ジョブを再実行して別のものとして保存できるかどうかを確認してください。
- マップのキーを列に変換し、dtype を使用してデータを複数の列に分割
list
し、これらの列のデータがインデックスによって相互に関連付け/マップされていることに注意してください (たとえば、0
これらのキー/列の idx の要素はすべて、同じソース)。これは機能しますが、率直に言って、私の心を壊します:(
他の人がこの制限をどのように回避したかを知りたいです。私の会社では、ネストされた配列をパークエストで頻繁に使用しています。このため、Dask の使用を手放す必要はありません。
pandas - pandas を使用して AWS S3 から寄木細工のファイルを読み取る
AWS S3 から寄木細工のファイルを読み込もうとしています。
私のWindowsマシンでも同じコードが機能します。
Google 検索では結果が得られませんでした。
Pandas は、データフレームを構築するために fastparquet を使用する必要があります。fastparquet がインストールされています。
コード:
以下の例外が発生します。
ソフトウェアと OS のバージョン
回避策