私は製品の大規模なデータセット(〜100万)を扱っています。これらの製品はさまざまなソースから提供されているため、データのリストに一貫性がありません。大きな問題の 1 つは、製品のブランド名の違いです (約 17,000 のユニークなブランド)。一部のブランドには、関連付ける必要がある 10 もの差異があります。
問題:
- 一貫性のない間隔: ジェット ボイル VS ジェットボイル
- 句読点:グレンジャーズVSグレンジャーズ
- ノイズ ワード:ザ ノース フェイス VS ノース フェイス
- 分類法: Armada VS Armada Skis
- シンボル: Phil and Teds VS Phil&Teds
- スペルミス:パタゴニア VS パタゴニア
- その他の奇妙:ベル スポーツ VS ベル スポーツ #81037
サンプル データセット
Black Diamond
Black Diamond (Uda)
Black Diamond Co
Black Diamond Eq Ltd
Black Diamond Eqp #76800
Black Diamond Equipment
Black Dog Machine Llc
Black Dome Press
Black Dot
Black Dragon
Black Fire
Black Flys
Black Forest Girl
Black Gold
Black Hawk Inc.
Black Hills
Black Knight
Black Label
Black Magic
Black Marine
Black Market Bikes
Black Max
Black Opal
Black Ops
Black Rain Ordance Inc.
Black Rain Ordnance
Black Rapid
Black Ribbon
Black Rifle Disease Engineerin
Black River Bucks
Black Seal
Black Seed
Black Swan
Black Tower
Black Widow
Black's
結果(コメントで提案されているように)
- 関連付けが正しくないと、関連のないブランドが製品検索に表示され、プレゼンテーション レイヤーの使いやすさが低下します。
- 関連付けがないと、同じブランドがフィルター リストに複数表示され、プレゼンテーション レイヤーの使いやすさが低下します。
これは大きな問題であり、スタック オーバーフローの記事で解決できる範囲を超えている可能性が高いことは認識していますが、この問題に取り組む方法についてのインスピレーションを探しています。
役立つ可能性のあるアルゴリズム、ソフトウェア パターン、またはプロセスは大歓迎です。