python - csvファイルでのPySparkのdistinct().count()

Question

私はsparkが初めてで、csvファイルのいくつかのフィールドに基づいてdistinct().count()を作ろうとしています。

Csv 構造 (ヘッダーなし):

id,country,type
01,AU,s1
02,AU,s2
03,GR,s2
03,GR,s2

.csv をロードするには、次のように入力しました。

lines = sc.textFile("test.txt")

lines次に、期待どおりに返された 3の個別のカウント:

lines.distinct().count()

idしかし、 let sayとに基づいて個別のカウントを作成する方法がわかりませんcountry。

score 2 · Accepted Answer

分割線は次のように最適化できます。

sc.textFile("test.txt").map(lambda line: line.split(",")[:-1]).distinct().count()

2 に答える 2