私は、合計で最大 100B のデータ ポイントを持つ可能性のある数百万の一連の毎日のデータを格納するための Cassandra 時系列データベースの作成を検討しています。
この記事を見ました: http://rubyscale.com/blog/2011/03/06/basic-time-series-with-cassandra/
このデザインはとても健全です。したがって、基本的には、毎日のタイムスタンプを列として配置し、必要に応じて、日を行に追加して列を分割できます。
私が持っている2つの質問:
- 最大 20,000 のタイムスタンプ付き (毎日) の列を保存しようとしています。たとえば、行をシャードする必要さえありますか。この量の列で年?行をシャーディングして列数を年間 365 に減らすことの利点/欠点はありますか。
- 私が持っている別のアイデアは、列を行ごとにシャーディングするのではなく、毎年列ファミリーを作成することです。このように、複数年のデータにアクセスする場合、1 つの列ファミリーではなく複数の列ファミリーを照会し、クライアント側で結果を結合する必要があります。このアプローチは物事をスピードアップしますか、それともすべてを遅くしますか?