現在、次のようなコードを実行しています。
df = pd.read_parquet('/tmp/my-file.parquet', engine='pyarrow')
ファイルが大きいため、メモリ消費の問題が発生していたので、調査したいと思いましたfastparquet
。
エンジンを切り替えると:
df = pd.read_parquet('/tmp/my-file.parquet', engine='fastparquet')
この行は、次のようなエラーをスローします。
TypeError: int() argument must be a string, a bytes-like object or a number, not 'NoneType'
null を含む整数フィールドがあるため、これが発生していると思います。これがサポートされていないというドキュメントは見つかりません。
なぜこれが起こっているのか、または fastparquet を使用している間に回避する方法についてのアイデアはありますか?