0

キーに基づいてRDDをグループ化しています。

rdd.groupBy(_.key).partitioner
=> org.apache.spark.HashPartitioner@a

デフォルトでは、SparkHashPartitionerがこの RDD に関連付けられていることがわかります。これは、1 つのエグゼキューターに同様のデータをもたらすためにある種のパーティショナーが必要であることに同意するため、私には問題ありません。しかし、プログラムの後半で、RDD にパーティショナー戦略を忘れさせたいと思います。これは、別のパーティション戦略に従う別の RDD と結合したいからです。RDD からパーティショナーを削除するにはどうすればよいですか?

4

0 に答える 0