重複行が同じ名前の行である次のデータの重複行を削除する方法を知っている人はいますか? キャッチは、重複したエントリで異なる電話番号、電子メールなどを保持したいということです。
このデータは、タブ区切りのテキスト ファイルです。
どうも!
name phone email website
Diane Grant Albrecht M.S.
Lannister G. Cersei M.A.T., CEP 111-222-3333 cersei@got.com www.got.com
Argle D. Bargle Ed.M.
Sam D. Man Ed.M. 000-000-1111 dman123@gmail.com www.daManWithThePlan.com
Sam D. Man Ed.M.
Sam D. Man Ed.M. 111-222-333 dman123@gmail.com www.daManWithThePlan.com
D G Bamf M.S.
Amy Tramy Lamy Ph.D.
理想的な出力:
name phone email website
Diane Grant Albrecht M.S.
Lannister G. Cersei M.A.T., CEP 111-222-3333 cersei@got.com www.got.com
Argle D. Bargle Ed.M.
Sam D. Man Ed.M. 000-000-1111, 111-222-333 dman123@gmail.com www.daManWithThePlan.com
D G Bamf M.S.
Amy Tramy Lamy Ph.D.
ファローアップ:
これについての考え:
from collections import defaultdict
import csv
import re
input = open('ieca_first_col_fake_text.txt', 'rU')
for row in input:
row.split('\t')
print row
# default to empty set for phone, email, website, area, degrees
extracted_data = defaultdict(lambda: [set(), set(), set()])
data_set = {}
for entry in input:
for index, value in enumerate(entry):
if index == 0:
data_set = extracted_data[name]
elif value:
data_set[index - 1].add(value)
print data_set
data_set が空です ('{}')