音楽のジャンルで構成された巨大なデータベース テーブルがあります。ほぼ 35000 のレコードがあり、それらのほとんどは主に同じジャンルを表現しています。たとえば:
+-----------+
| Name |
+-----------+
| "Dubstep" |
| Dub Step |
| Dubstep |
| dub-step |
| dubstep |
+-----------+
すべてを 1 つのユニークなジャンルにまとめることができ、単に「ダブステップ」と呼ぶことができます。
よりクリーンなデータセットを実現したいのですが、いくつかの提案を聞きたいのですが、「ダブステップ」と「ダブステップ」が同じ意味を表しているかどうかはどうすればわかりますか?
Python と SQLAlchemy を使用していることに注意してください。私は決して SQL の専門家ではありません。