私はsparkが初めてで、csvファイルのいくつかのフィールドに基づいてdistinct().count()を作ろうとしています。
Csv 構造 (ヘッダーなし):
id,country,type
01,AU,s1
02,AU,s2
03,GR,s2
03,GR,s2
.csv をロードするには、次のように入力しました。
lines = sc.textFile("test.txt")
lines
次に、期待どおりに返された 3の個別のカウント:
lines.distinct().count()
id
しかし、 let sayとに基づいて個別のカウントを作成する方法がわかりませんcountry
。