0

fastparquet を使用して S3 からファイルを読み取るときに、None 統計 (最小/最大) を取得しています。通話時

fp.ParquetFile(fn=path, open_with=myopen).statistics['min']

ほとんどの値は None で、一部の値は有効です。

ただし、他のフレームワークで同じファイルを読み取ると、すべての値の正しい最小値/最大値を取得できます。

すべての統計を取得するにはどうすればよいですか? ありがとう

4

1 に答える 1

1

行グループの完全なセットがリストとして利用可能

pf = fp.ParquetFile(fn=path, open_with=myopen)
pf.row_groups

また、各行グループには.columns属性があり、その属性にはmeta_data; 掘り下げて、列の個々の最小/最大が何であるかを確認できます。

于 2020-09-22T14:56:35.233 に答える