1

Spark での indexedRDD 作業の状況は? SnappyDataを見た人はいますか? 彼らは、データフレームに対して高速でランダムな読み取りと書き込みを行うことができると主張しています。

4

1 に答える 1

1

これは、 IndexedRddに関する Amplab の作業です。2015 年 9 月以降、このプロジェクトへのコミットはありません。このアプローチでは、更新ごとに新しい RDD を構築するために RDD 全体を再スキャンする必要があるようです。Spark の将来のバージョン (おそらく Spark 2.0) で状態管理がどのように対処されるかについては、こちらを参照してください。これは、構成された間隔での RDD 状態のチェックポイントに依存します。ただし、 CassandraGemFireRedisなど のランダム RW 用のサード パーティのデータ ストアを検討することをお勧めします。インメモリ SQL データストアであるSnappyDataもこのキャンプに含まれますが、データ ストアを spark 内に埋め込んで実行することもできます。シリアライゼーション/デシリアライゼーションの問題を回避するエグゼキューター。

于 2016-02-27T18:49:52.730 に答える