3

を使用して大規模なウェブログ処理プロジェクトに取り組んでapache Cassandraいますが、 columnfamily に行が多すぎるのではないかと思います。これによりクエリが遅くなりますか??

私のデータでは、1日あたり約1000億行のログがあります

それらを多くの列ファミリーに分割すると(20120627のような日パターンとして)、より理想的です???

このデータをモデル化するための提案をしてくれる人はいますか??

私はそのような列ファミリーのみを作成するつもりです:

CREATE TABLE data (
  KEY text PRIMARY KEY
) WITH
  comment='log' AND
  comparator=text 

タイムスタンプのチャンクでデータを処理したい (ex 処理: 10:20 --> 10:30 データ)

4

1 に答える 1

1

多くの列ファミリーを作成する必要はないと思いますが、複合キーを使用して列を操作するには.

キーは、(1 日の日付: ログのタイムスタンプ) または (1 日の時間: ログのタイムスタンプ) または (1 日の分: ログのタイムスタンプ) の形式で指定できます。

次に、同じタイムスタンプを持つログとの競合を防ぐために、スーパー カラムを使用できます。

cassandra の制限に関する詳細情報を取得できます: http://wiki.apache.org/cassandra/Cas ​​sandraLimitations

于 2012-06-28T10:23:47.123 に答える