ユーザーによって時折生成されるデータの平均値を保存し、それをアプリケーションで使用して将来のデータを予測したいと考えています。今私が抱えている問題は、このデータが日中に大幅に変化する可能性があることです。たとえば、夜間にアクセスするユーザーは、朝にアクセスするユーザーよりもはるかに低い値を生成する可能性があるため、単純な平均を維持するだけでは合理的ではありません予測精度。
ある種の時間ベースの平均を保存する必要があるものもあります-たとえば、単純な解決策は、1日の各時間の平均値を保存することです-そのため、午前12時から午前1時までの間にデータを生成したすべてのユーザーに1つずつ、24の平均を保持します。 2 番目は、午前 1 時から午前 2 時までの間にデータを生成したすべてのユーザーに対して、というように続きます。
このアプローチにはいくつかの問題があります: 1. データを適切に予測するには、いくつかの値 (たとえば、今から 2 時間先と 2 時間前) を参照する必要がありますが、これを行うリソースがない可能性があります。 . 精度があまり損なわれない場合は、むしろ単一の値を参照します。2. また、このデータを最近の時間だけ記憶させたいと考えています。数年前には非常に低い値が生成されたが、先月以降は誰もが高い値を生成している場合、近い将来のデータを予測するには、次のようにする必要があります。これまでに作成されたすべてのデータの平均よりも優れた応答が得られます。議論のために、90日より古いものはすべて実際には関係がないと言いましょう. 3. ユーザーによって生成されたすべてのデータを保持するだけでなく、平均値を使用したい理由は、大量のデータが予想されるためです.100Kからおそらく10Mのデータポイントごとに、数百万のデータポイントを保存する必要があります.ユーザーからの毎週のデータ入力 - 少なくとも。また、ユーザーの分類に基づいて、データ ポイントごとにデータをさらに分割することもできます。
巨大なデータストレージ施設を必要とせずに平均データを最適に計算する方法について、誰かがヒントをくれれば幸いです:-)
[ヒント - はい、GIS アプリケーション用です]