apache-spark - タイムスタンプデータの週平均と日平均の取得

翻译自：https://stackoverflow.com/questions/37866050 2016-06-16T17:44:28.673

1830 次

現在、次のようにフォーマットされた Spark データフレームにデータがあります。

Timestamp    Number
.........    ......
M-D-Y        3
M-D-Y        4900

タイムスタンプデータは決して均一でも一貫性もありません (つまり、2015 年 3 月 1 日に存在する 1 つの値を持つことができ、テーブル内の次の値は 2015 年 9 月 1 日の日付になる可能性があります。また、 1 日につき複数のエントリ)。

だから私は2つのことをしたかった

1 週間あたりのエントリ数を計算します。したがって、基本的には、行が対応する週にタイムスタンプ列があった行の数を表す新しいテーブルが必要になります。複数の年が存在する場合、理想的には、毎年の値を平均して単一の値を取得したいと考えています。
各週の数値列を平均します。したがって、その年のすべての週について、数値列の平均を表す値が得られます (その週にエントリがない場合は 0)。

apache-spark - タイムスタンプ データの週平均と日平均の取得