私たちは、最大 150 万のタイムスタンプ付きレコード、1 秒あたり約 24MB、または 1 日あたり約 2TB の大量のデータを作成するシステムを持っています。
データは複数のソースから取得され、複数の形式があります。共通点の 1 つはタイム スタンプです。
現在、約 5 日分のデータをファイルに保存し、レポートを生成する社内ソフトウェアを使用しています。
何年にもわたるデータを保持してクエリできるスケーラブルなシステムの作成を検討しています。
Nathan Marz がHow to be Beat the CAP theoremで説明しているように、Hadoop/ElephantDB を長期バッチ ストレージに使用し、Storm/Cassandra をリアルタイム レイヤーに使用します。
コミュニティが代替案を指摘したり、さらに読むことを提案したりできるかどうか疑問に思っていますか?
データが主に時間別に整理されているという事実は、特定のタイプのソリューションに役立つのでしょうか?
この種の質問をするためのより良いフォーラムはありますか?
ありがとう