0

こんにちは、私は現在、Spark を介して時系列データに取り組んでおり、タイムゾーンを扱っています。

SparkSQL の組み込み関数の一部は、特定のタイム ゾーン パラメーターを使用しました。たとえば、次のようになります。

pyspark.sql.functions.from_utc_timestamp(timestamp, tz)

Assumes given timestamp is UTC and converts to given timezone.

>>> df = sqlContext.createDataFrame([('1997-02-28 10:30:00',)], ['t'])
>>> df.select(from_utc_timestamp(df.t, "PST").alias('t')).collect()
[Row(t=datetime.datetime(1997, 2, 28, 2, 30))]
New in version 1.5.

私の場合、タイムゾーン情報は「+01:00」の形式で保存されているため、タイムゾーンの短縮形を使用するのは便利ではないかもしれません。

だから私の質問は次のとおりです:オフセットが考慮されるように、「+01:00」の形式のオフセット文字列をsparkデータフレームに組み込むにはどうすればよいですか?

4

1 に答える 1