現在、次のようにフォーマットされた Spark データ フレームにデータがあります。
Timestamp Number
......... ......
M-D-Y 3
M-D-Y 4900
タイムスタンプ データは決して均一でも一貫性もありません (つまり、2015 年 3 月 1 日に存在する 1 つの値を持つことができ、テーブル内の次の値は 2015 年 9 月 1 日の日付になる可能性があります。また、 1 日につき複数のエントリ)。
だから私は2つのことをしたかった
- 1 週間あたりのエントリ数を計算します。したがって、基本的には、行が対応する週にタイムスタンプ列があった行の数を表す新しいテーブルが必要になります。複数の年が存在する場合、理想的には、毎年の値を平均して単一の値を取得したいと考えています。
- 各週の数値列を平均します。したがって、その年のすべての週について、数値列の平均を表す値が得られます (その週にエントリがない場合は 0)。