python - Spark の alluxio/tachyon での RDD の変換のメモリ使用量

翻译自：https://stackoverflow.com/questions/37719969 2016-06-09T07:54:08.487

352 次

alluxioメモリからRDDを作成するとしましょう

rdd1 = sc.textFile("alluxio://.../file1.txt")
rdd2 = rdd1.map(...)

のヒープ上または上にrdd2常駐します。alluxiospark

また、(alluxio での両方の pairRDD) のような操作は、 pairRDD1.join(pairRDD2)alluxio またはスパークヒープで新しい RDD を作成します。

2 番目の質問の理由は、alluxio で 2 つの大きな RDD に参加する必要があるためです。結合はalluxioのメモリを使用しますか、それともRDDは結合のためにsparkメモリに引き込まれますか(そして結果のRDDはどこに存在しますか)。

1 に答える 1