次の問題を解決するために、hadoop と hive を使用する予定です。
特定のタイムスタンプで測定された温度を表す、たとえば形式 (タイムスタンプ、温度) のデータのストリームがあります。毎日、いくつかの集計 (最大など) を計算する必要があります。集計は、毎日 1 回 (真夜中など) に計算する必要があります。
データを何らかの方法でハイブにロードし、日付でパーティション分割することを考えました。ただし、問題が 1 つあります。ストリーム内のデータをタイムスタンプで並べ替える必要はありません。遅延したレコードを受け取ります。レコードが本来よりも数日遅れて到着する場合があります。この場合、通常の集計を生成しながら、そのタイムスタンプを含む日の集計も計算する必要があります。
直感的に、ハイブ テーブルのそれぞれのパーティションに後期レコードを追加したいと思います。パーティション全体をリロードせずにこれを行うことは可能ですか? (そして、パーティションをリロードするのはコストのかかる操作ですか?)