1

私のデータベースはCassandra (datastax エンタープライズ => linux) です。レポート用の group-by、aggregate などをサポートしていないため、その基本に従って、Cassandra を使用するのは適切な決定ではありません。私はこの赤字についてグーグルで検索し、これ、これ、およびこれなどの結果を見つけまし

しかし、私は本当に混乱しました!Hiveは追加のテーブルを個別に使用します。Solrは全文検索などに適しています。そしてSpark …分析には便利なのですが、最終的にHadoopを使っているのかどうかわかりませんでした。

少なくとも、索引付けとグループ化が必要なレポートを多数作成する予定です。しかし、オーバーヘッドを課す追加のテーブルを使用したくありません。また、私は (Java ではなく) .Net 開発者であり、アプリケーションも.Net Frameworkに基づいています。

4

1 に答える 1

1

ここであなたの質問が何であるか正確にはわかりません.CassandraとDSEでは多くのことが起こっているので、あなたの混乱は理解できます.

  • Cassandra は、レポートに使用したい機能による集計やグループ化をサポートしていないというあなたの指摘は正しいです。
  • Solr (DSE Search) は、Cassandra に格納されたデータのアドホックおよび全文検索に使用されます。これは、一度に 1 つのテーブルでのみ機能します。
  • Spark (DSE Analytics) は、Map-Reduce などの分析機能と、テーブルのフィルタリングおよび結合機能を提供します。ただし、データの負荷によっては、データの処理とシャッフルにコストがかかる可能性があるため、これはリアルタイムでは行われません。
  • Spark は Hadoop を使用しません。同じジョブの多くを実行しますが、データのインメモリ分散処理が可能になるため、多くのシナリオでより効率的です。

DataStax Enterprise を使用しているため、アドホック クエリを提供する Solr (DSE Search) とデータの分析を提供する Spark (DSE Analytics) の両方へのコネクタが組み込まれているという利点があります。

正確な報告要件がわからないため、具体的な推奨事項を提供することは困難です。実行するレポートの種類 (定期レポートとアドホック レポートなど) について追加の詳細を提供していただければ、さらにお役に立てるかもしれません。

于 2016-03-09T13:26:47.003 に答える