私が所有するシステムに大量の受信データ セットがあるという要件があります。
このセット内のデータの 1 つの単位には、不変の属性と状態のセットが関連付けられています。状態は動的で、いつでも変更できます。
要件は次のとおりです-
- 大規模なデータ セットでは、状態が変化する可能性があります。更新は高速である必要があります。
- さまざまな属性にピボットされたデータを集約できるはずです。
- 理想的には、個々のデータ ユニットを集計結果に関連付ける方法が必要です。つまり、特定の集計を生成した特定のトランザクションにドリルダウンしたいと考えています。(集約が実行された後にデータユニットの状態が変化するなど、ここでの競合状態は認識していますが、これは予想されることです)。
- すべての集計は時間ベースです。つまり、1 日、2 日、1 週間、1 か月などのピボット y での x の合計です。
これらのユースケースを満たすためにさまざまなテクノロジーを評価しており、あなたの提案を聞きたいと思っています。分析/集計のユース ケースに適合する Hive/Pig を調べました。ただし、いつでもシステムに大量の更新が入る可能性があることを懸念しています。インデックス付きデータベース (sql または nosql) と比較した場合、これが HDFS ファイルでどのように機能するかはわかりません。