こんにちは、私は現在、Spark を介して時系列データに取り組んでおり、タイムゾーンを扱っています。
SparkSQL の組み込み関数の一部は、特定のタイム ゾーン パラメーターを使用しました。たとえば、次のようになります。
pyspark.sql.functions.from_utc_timestamp(timestamp, tz)
Assumes given timestamp is UTC and converts to given timezone.
>>> df = sqlContext.createDataFrame([('1997-02-28 10:30:00',)], ['t'])
>>> df.select(from_utc_timestamp(df.t, "PST").alias('t')).collect()
[Row(t=datetime.datetime(1997, 2, 28, 2, 30))]
New in version 1.5.
私の場合、タイムゾーン情報は「+01:00」の形式で保存されているため、タイムゾーンの短縮形を使用するのは便利ではないかもしれません。
だから私の質問は次のとおりです:オフセットが考慮されるように、「+01:00」の形式のオフセット文字列をsparkデータフレームに組み込むにはどうすればよいですか?