hadoop - データベースが Cassandra である場合、レポートを管理します...Spark または Solr...またはその両方ですか?

Question

私のデータベースはCassandra (datastax エンタープライズ => linux) です。レポート用の group-by、aggregate などをサポートしていないため、その基本に従って、Cassandra を使用するのは適切な決定ではありません。私はこの赤字についてグーグルで検索し、これ、これ、およびこれなどの結果を見つけました。

しかし、私は本当に混乱しました！Hiveは追加のテーブルを個別に使用します。Solrは全文検索などに適しています。そしてSpark …分析には便利なのですが、最終的にHadoopを使っているのかどうかわかりませんでした。

少なくとも、索引付けとグループ化が必要なレポートを多数作成する予定です。しかし、オーバーヘッドを課す追加のテーブルを使用したくありません。また、私は (Java ではなく) .Net 開発者であり、アプリケーションも.Net Frameworkに基づいています。

score 1 · Accepted Answer

ここであなたの質問が何であるか正確にはわかりません.CassandraとDSEでは多くのことが起こっているので、あなたの混乱は理解できます.

Cassandra は、レポートに使用したい機能による集計やグループ化をサポートしていないというあなたの指摘は正しいです。
Solr (DSE Search) は、Cassandra に格納されたデータのアドホックおよび全文検索に使用されます。これは、一度に 1 つのテーブルでのみ機能します。
Spark (DSE Analytics) は、Map-Reduce などの分析機能と、テーブルのフィルタリングおよび結合機能を提供します。ただし、データの負荷によっては、データの処理とシャッフルにコストがかかる可能性があるため、これはリアルタイムでは行われません。
Spark は Hadoop を使用しません。同じジョブの多くを実行しますが、データのインメモリ分散処理が可能になるため、多くのシナリオでより効率的です。

DataStax Enterprise を使用しているため、アドホッククエリを提供する Solr (DSE Search) とデータの分析を提供する Spark (DSE Analytics) の両方へのコネクタが組み込まれているという利点があります。

正確な報告要件がわからないため、具体的な推奨事項を提供することは困難です。実行するレポートの種類 (定期レポートとアドホックレポートなど) について追加の詳細を提供していただければ、さらにお役に立てるかもしれません。

hadoop - データベースが Cassandra である場合、レポートを管理します...Spark または Solr...またはその両方ですか?

1 に答える 1

Related

Reference