次の種類のデータを含むデータセットがあります。
company_id, company_name, country
1, a Tech, germany
2, a Tech AG, germany
3, a Tech gmbh, germany
4, AF, germany
5, AF gmbh, vermany
ID を完全一致に割り当てた予備検索に基づいて、これらの会社に company_id を既に割り当てています。今、私は次のことをしたい:
1) 会社名がその下の会社名と完全に同じかどうかを検出する正規表現を記述します。
正規表現を正しく取得するためのロジックを除いて、すべて完了しました。例えば:
for next_row in reader:
first_name = first_row['company_name']
next_name = next_row['company_name']
if first_name == next_name:##FIX ME
#do stuff
writer.writerow(first_row)
first_row = next_row
等価性テストのロジックは、if first_name == next_name -- ではなく、first_name が last_name に gmbh を加えたものと等しい場合にすべきではありません...
説明をいただければ幸いです。