問題タブ [pyarrow]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1240 参照

pandas - load_table_from_dataframe() を使用して日時オブジェクトを含むデータフレームを格納する際のスキーマの競合

DataFramePandas からBigQuery テーブルにデータを読み込もうとしています。DataFrameには dtype の列があり、datetime64[ns]を使用して df を保存しようとするとload_table_from_dataframe()

google.api_core.exceptions.BadRequest: 400 提供されたスキーマがテーブル [テーブル名] と一致しません。フィールド compute_triggered_time のタイプが DATETIME から TIMESTAMP に変更されました。

テーブルには次のスキーマがあります

DataFrameは列ですcomputation_triggered_timedatetime64[ns]CSV からオリジナルを読み取ると、次のDataFrameようにテキストから日時に変換します。

ノート:

PyArrow を使用して df をシリアル化し、データの精度がナノ秒の場合は失敗するため、この.values.astype('datetime64[ms]')部分が必要です。load_table_from_dataframe()エラーは次のようなものです

[...] タイムスタンプ [ns] からタイムスタンプ [ms] にキャストすると、データが失われます

0 投票する
1 に答える
839 参照

parquet - 寄木細工のデータセット パーティションの値をクエリする pyarrow の方法はありますか?

たとえば、次のようなデータセットがあります。

データセット全体をメモリに読み込まずに、パーティション " "の利用可能なエントリを照会するにはdataset = pyarrow.parquet.ParquetDataset('./dataset') どうすればよいですか? aありがとう〜

0 投票する
1 に答える
329 参照

c++ - タイムスタンプを C++ の寄木細工のファイルに保存し、Python Pandas にロードする方法は?

C ++で使用Apache Arrowして、時系列のコレクションを寄木細工のファイルとして保存し、pythonを使用して寄木細工のファイルをPandas Dataframe. このプロセスは、Date64Type. C++ でエポック時間を保存していますが、パンダにロードすると時間情報が失われます。

たとえば、boost posix time :2018-04-01T20:11:17.112Zの場合、エポック時間 (in int64_t) は ですが1522613477112000、parquet ファイルに ( Date64Type) として保存し、pandas にロードすると、結果は2018-04-01になり、時間情報が失われます。寄木細工のファイルにタイムスタンプを保存する正しいものは何ですか?