クッキー、ページ訪問、広告閲覧、広告クリックなど、Cassandraに保存されているさまざまなWebサイトからの多くのユーザーインタラクションデータがあり、レポートを作成したいと考えています。現在のCassandraスキーマは、基本的なレポートとクエリをサポートしています。ただし、通常は大規模な列ファミリ(数百万の行を含む)での結合を含む大規模なクエリも作成したいと思います。
これに最適なアプローチは何ですか?1つの可能性は、mySQLなどのリレーショナルデータベースにデータを抽出し、そこでデータマイニングを実行することです。別の方法として、ハイブまたはピッグでHadoopを使用して、この目的でマップリデュースクエリを実行することもできますか?私は後者の経験がまったくないことを認めなければなりません。
誰かが一方と他方でパフォーマンスの違いを経験したことがありますか?ライブのCassandra本番インスタンスまたはバックアップコピーでmapreduceクエリを実行して、クエリの負荷が書き込みパフォーマンスに影響を与えないようにしますか?