いくつかのフィルター条件を追加して、小さな RDD で 1 つの BIG RDD を反復したいと考えています。以下のコードは正常に動作していますが、プロセスはドライバーでのみ実行され、ノード全体に分散されていません。他のアプローチを提案してください。
val cross = titlesRDD.cartesian(brRDD).cache()
val matching = cross.filter{ case( x, br) =>
((br._1 == "0") &&
(((br._2 ==((x._4))) &&
((br._3 exists (x._5)) || ((br._3).head==""))
}
ありがとう、マドゥ