問題タブ [pyarrow]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pandas - load_table_from_dataframe() を使用して日時オブジェクトを含むデータフレームを格納する際のスキーマの競合
DataFrame
Pandas からBigQuery テーブルにデータを読み込もうとしています。DataFrame
には dtype の列があり、datetime64[ns]
を使用して df を保存しようとするとload_table_from_dataframe()
、
google.api_core.exceptions.BadRequest: 400 提供されたスキーマがテーブル [テーブル名] と一致しません。フィールド compute_triggered_time のタイプが DATETIME から TIMESTAMP に変更されました。
テーブルには次のスキーマがあります
のDataFrame
は列ですcomputation_triggered_time
。datetime64[ns]
CSV からオリジナルを読み取ると、次のDataFrame
ようにテキストから日時に変換します。
ノート:
PyArrow を使用して df をシリアル化し、データの精度がナノ秒の場合は失敗するため、この.values.astype('datetime64[ms]')
部分が必要です。load_table_from_dataframe()
エラーは次のようなものです
[...] タイムスタンプ [ns] からタイムスタンプ [ms] にキャストすると、データが失われます
parquet - 寄木細工のデータセット パーティションの値をクエリする pyarrow の方法はありますか?
たとえば、次のようなデータセットがあります。
データセット全体をメモリに読み込まずに、パーティション " "の利用可能なエントリを照会するにはdataset = pyarrow.parquet.ParquetDataset('./dataset')
どうすればよいですか? a
ありがとう〜
c++ - タイムスタンプを C++ の寄木細工のファイルに保存し、Python Pandas にロードする方法は?
C ++で使用Apache Arrow
して、時系列のコレクションを寄木細工のファイルとして保存し、pythonを使用して寄木細工のファイルをPandas
Dataframe
. このプロセスは、Date64Type
. C++ でエポック時間を保存していますが、パンダにロードすると時間情報が失われます。
たとえば、boost posix time :2018-04-01T20:11:17.112Z
の場合、エポック時間 (in int64_t
) は ですが1522613477112000
、parquet ファイルに ( Date64Type
) として保存し、pandas にロードすると、結果は2018-04-01
になり、時間情報が失われます。寄木細工のファイルにタイムスタンプを保存する正しいものは何ですか?