1.txt と 2.txt という名前のテキスト ファイルがあるとします。1.txt の内容
1,9,5
2,7,4
3,8,3
と 2.txt が含まれています
1,g,h
2,i,j
3,k,l
だから、私はそれらのキー(最初の列)で2つを結合しました:
val one = sc.textFile("1.txt").map{
line => val parts = line.split(",",-1)
(parts(0),(parts(1),parts(2)))
}
val one = sc.textFile("2.txt").map{
line => val parts = line.split(",",-1)
(parts(0),(parts(1),parts(2)))
}
さて、これを正しく理解すれば、
(1, ( (9,5), (g,h) ))
(2, ( (7,4), (i,j) ))
(3, ( (8,3), (k,l) ))
ここで、1.txt の 2 列目のすべての値を合計する必要があるとします。
どうすればいいですか?
結合された RDD で 2.txt の 2 列目 (g、i、k) を参照するにはどうすればよいですか?
RDD を使用するための適切なチュートリアルはありますか? 私はスパーク(およびスカラ)の初心者です。