2

1.txt と 2.txt という名前のテキスト ファイルがあるとします。1.txt の内容

1,9,5
2,7,4
3,8,3

と 2.txt が含まれています

1,g,h
2,i,j
3,k,l

だから、私はそれらのキー(最初の列)で2つを結合しました:

val one = sc.textFile("1.txt").map{
  line => val parts = line.split(",",-1)
    (parts(0),(parts(1),parts(2)))
}

val one = sc.textFile("2.txt").map{
  line => val parts = line.split(",",-1)
    (parts(0),(parts(1),parts(2)))
}

さて、これを正しく理解すれば、

(1,  (  (9,5), (g,h)  ))
(2,  (  (7,4), (i,j)  ))
(3,  (  (8,3), (k,l)  ))

ここで、1.txt の 2 列目のすべての値を合計する必要があるとします。

  1. どうすればいいですか?

  2. 結合された RDD で 2.txt の 2 列目 (g、i、k) を参照するにはどうすればよいですか?

  3. RDD を使用するための適切なチュートリアルはありますか? 私はスパーク(およびスカラ)の初心者です。

4

1 に答える 1