apache-spark - Spark RDD を 2 つのテーブルに分割し、それらに対して結合を実行できますか?

Question

ファクトテーブルとそのディメンションテーブルをまとめて含む大きな TSV データファイルがあります。Spark を使用して、その単一のファイルを異なる「テーブル」に分割/パーティション化し、結合を実行してそれらを正規化することが可能かどうか疑問に思っていますか?

私を正しい方向に向ける助けは素晴らしいでしょう。

score 2 · Accepted Answer

baseRDD にフィルターを適用して、factRDD と dimensionRDD の両方を取得すると、それらを結合できます。

val baseRDD = sc.textFile("...")  
val factRDD = baseRDD.filter(func1)  
val dimensionsRDD = baseRD.filter(func2)  
factRDD.join(dimentionsRDD)

1 に答える 1