以下の要件を備えたセンサー データ収集システムを評価しています。
- 毎分 100 バイトのデータを送信する 100 万のエンドポイント (時系列)。
基本的に、ストレージへの数百万回の小さな書き込み。
This data is write-once, so basically it never gets updated.
アクセス要件 ユーザーの完全なデータは、定期的にアクセスする必要があります (頻度は低くなります)
b. ユーザーの部分的なデータには、定期的に (より頻繁に) アクセスする必要があります。たとえば、分析/レポートのために、過去 1 時間/日/週/月に収集されたセンサー データが必要です。
オプションとして Hive/HDFS を検討し始めました。そのようなユースケースでのHiveの適用性について誰かコメントできますか? 分散ストレージのニーズは機能するものの、リアルタイムのデータ収集/ストレージよりもデータ ウェアハウジング アプリケーションにより適しているように思われることを懸念しています。
このシナリオでは、HBase/Cassandra のほうが理にかなっていますか?