apache-spark - キャッシュと永続化の違いは何ですか?

Question

永続性に関して、とsparkRDDの違いは何ですか?cache()persist()

score 240 · Accepted Answer

ではcache()、デフォルトのストレージレベルのみを使用します。

MEMORY_ONLYRDD用
MEMORY_AND_DISKデータセット用

では、 RDDとDatasetpersist()の両方に必要なストレージレベルを指定できます。

公式ドキュメントから：

() または() メソッドRDDを使用して、を永続化するようにマークできます。persistcache

永続化されたそれぞれRDDは、異なるを使用して保存できますstorage level

( cache) メソッドは、StorageLevel.MEMORY_ONLY(デシリアライズされたオブジェクトをメモリに格納する) デフォルトのストレージレベルを使用するための省略形です。

persist()以外のストレージレベルを割り当てる場合に使用します。

MEMORY_ONLYRDDへ
またはデータセットMEMORY_AND_DISKの場合

公式ドキュメントへの興味深いリンク:どのストレージレベルを選択するか

score 50 · Accepted Answer

違いはありません。からRDD.scala。

/** Persist this RDD with the default storage level (`MEMORY_ONLY`). */
def persist(): this.type = persist(StorageLevel.MEMORY_ONLY)

/** Persist this RDD with the default storage level (`MEMORY_ONLY`). */
def cache(): this.type = persist()

apache-spark - キャッシュと永続化の違いは何ですか?

6 に答える 6

Related

Reference