私はこのようなcsvファイルを持っています:
column1 column2
john kerry
adam stephenson
ashley hudson
john kerry
etc..
このファイルから重複を削除して、次の情報のみを取得したい:
column1 column2
john kerry
adam stephenson
ashley hudson
姓に基づいて重複を削除するこのスクリプトを作成しましたが、姓と名に基づいて重複を削除する必要があります。
import csv
reader=csv.reader(open('myfilewithduplicates.csv', 'r'), delimiter=',')
writer=csv.writer(open('myfilewithoutduplicates.csv', 'w'), delimiter=',')
lastnames = set()
for row in reader:
if row[1] not in lastnames:
writer.writerow(row)
lastnames.add( row[1] )