3

ファクト テーブルとそのディメンション テーブルをまとめて含む大きな TSV データ ファイルがあります。Spark を使用して、その単一のファイルを異なる「テーブル」に分割/パーティション化し、結合を実行してそれらを正規化することが可能かどうか疑問に思っていますか?

私を正しい方向に向ける助けは素晴らしいでしょう。

4

1 に答える 1

2

baseRDD にフィルターを適用して、factRDD と dimensionRDD の両方を取得すると、それらを結合できます。

val baseRDD = sc.textFile("...")  
val factRDD = baseRDD.filter(func1)  
val dimensionsRDD = baseRD.filter(func2)  
factRDD.join(dimentionsRDD)
于 2015-02-20T07:58:49.283 に答える