問題タブ [pyarrow]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Pandas Dataframe Parquet データ型?
Pandas と Pyarrow を使用してデータを寄木細工しようとしています。同じスキーマを持つ必要のない何百もの寄木細工ファイルがありますが、列が寄木細工間で一致する場合、それらは同じデータ型を持つ必要があります。
結果の寄木細工のデータ型が私が望むものではない状況に陥っています。たとえばint64
、列に を書き込むと、結果の寄木細工がdouble
フォーマットされます。これは、データの 99% が正しく型付けされている処理側で多くの問題を引き起こしていますが、1% のケースでは型が間違っているだけです。
numpy をインポートして、この方法で値をラップしようとしました-
しかし、私はまだ時折ダブルを取得しているので、これは間違った方法であるに違いありません. 寄木細工ファイルの列全体でデータ型が一貫していることを確認するにはどうすればよいですか?
アップデート-
これは、列に 1 つ以上None
の が含まれている場合にのみ発生することがわかりました。
寄木細工は混合されたNone-int64列を処理できませんか?
python - 文字列データ型の null 値を示す寄木細工のファイルからの Redshift 外部テーブル
S3 に保存されている Parquet ファイルを参照して、Redshift で外部テーブルを作成しています。parquet ファイルは pyarrow で作成されます。SELECT * すると、「タイムスタンプ」の下に定義された外部テーブルが機能しますが、「anonymous_id」(VARCHAR) は null です。同じことが VARCHAR にも当てはまります。
寄木細工のスキーマは次のとおりです。
なぜそれが起こるのですか?STL_S3CLIENT_ERROR 言います:
ご助力ありがとうございます!