elasticsearch - Spark-Cassandra 対 Spark-Elasticsearch

Question

私はかなり前から Elasticsearch を使用しており、Cassandra を使用した経験はほとんどありません。

現在、spark を使用してデータを処理したいプロジェクトがありますが、データをロードするためのデータストアとして Cassandra と Elasticsearch のどちらを使用するかを決定する必要があります。

コネクタに関しては、Cassandra と Elasticsearch の両方にデータをロードするための優れたコネクタが備わっているため、決定要因にはなりません。

決定する勝敗の要因は、Spark 内でデータをどれだけ速くロードできるかです。私のデータはほぼ 20 テラバイトです。

JMeter を使用していくつかのテストを実行し、結果を自分で確認できることは知っていますが、両方のシステムに精通している人に尋ねたいと思います。

ありがとう

score 2 · Accepted Answer

ES は検索だけが得意であるという Evgenii の回答に反論します。はい ES はテキスト検索で超えますが、データができないわけではありません。

実際に「Mongo」スタイルのドキュメントであるかのように扱い、「フィルター」クエリを実行して高速フェッチ結果を得ることができます。しかし、問題は次のようになります: 読み取り/書き込みの速度はどれくらい必要ですか? また、ディストリビューションが必要ですか? ES に欠けているのは配布です。はい、ES はシャーディングを行うことができますが、データのマルチリージョン分散とレプリケーションの信頼性に問題があります。

データの柔軟性/信頼性が必要な場合は、Cassanda を選択します。また、あなたは TB を扱っているので、Cassandra は極端なボリュームに適しているため、勝者になる可能性もあります。

検索を実行するためのより簡単な時間が必要な場合 (テキスト検索に限定されません。たとえば、地理空間も実行できます)、ES の方が適している可能性があります。（実行しているせん断ボリュームについては、負荷を分散するためにシャードする必要があることに注意してください）。

elasticsearch - Spark-Cassandra 対 Spark-Elasticsearch

2 に答える 2

Related

Reference