alluxioメモリからRDDを作成するとしましょう
rdd1 = sc.textFile("alluxio://.../file1.txt")
rdd2 = rdd1.map(...)
のヒープ上または上にrdd2
常駐します。alluxio
spark
また、(alluxio での両方の pairRDD) のような操作は、
pairRDD1.join(pairRDD2)
alluxio またはスパーク ヒープで新しい RDD を作成します。
2 番目の質問の理由は、alluxio で 2 つの大きな RDD に参加する必要があるためです。結合はalluxioのメモリを使用しますか、それともRDDは結合のためにsparkメモリに引き込まれますか(そして結果のRDDはどこに存在しますか)。