7

私はsparkが初めてで、csvファイルのいくつかのフィールドに基づいてdistinct().count()を作ろうとしています。

Csv 構造 (ヘッダーなし):

id,country,type
01,AU,s1
02,AU,s2
03,GR,s2
03,GR,s2

.csv をロードするには、次のように入力しました。

lines = sc.textFile("test.txt")

lines次に、期待どおりに返された 3の個別のカウント:

lines.distinct().count()

idしかし、 let sayとに基づいて個別のカウントを作成する方法がわかりませんcountry

4

2 に答える 2

2

分割線は次のように最適化できます。

sc.textFile("test.txt").map(lambda line: line.split(",")[:-1]).distinct().count()
于 2015-05-11T16:32:31.710 に答える