apache-spark - Spark の indexedRDD は SnappyData と比べてどうですか?

Question

Spark での indexedRDD 作業の状況は? SnappyDataを見た人はいますか? 彼らは、データフレームに対して高速でランダムな読み取りと書き込みを行うことができると主張しています。

score 1 · Accepted Answer

これは、 IndexedRddに関する Amplab の作業です。2015 年 9 月以降、このプロジェクトへのコミットはありません。このアプローチでは、更新ごとに新しい RDD を構築するために RDD 全体を再スキャンする必要があるようです。Spark の将来のバージョン (おそらく Spark 2.0) で状態管理がどのように対処されるかについては、こちらを参照してください。これは、構成された間隔での RDD 状態のチェックポイントに依存します。ただし、 Cassandra、GemFire、Redisなどのランダム RW 用のサードパーティのデータストアを検討することをお勧めします。インメモリ SQL データストアであるSnappyDataもこのキャンプに含まれますが、データストアを spark 内に埋め込んで実行することもできます。シリアライゼーション/デシリアライゼーションの問題を回避するエグゼキューター。

apache-spark - Spark の indexedRDD は SnappyData と比べてどうですか?

1 に答える 1

Related

Reference