制御されていない外部ソースから多くの型付きデータを受け取ります。データは、家電製品のメーカー/モデルをカバーしています。検証/オートコンプリートを強制する制御がないため、このデータのスペル/フォーマットは非常に面倒です。
エラスティック検索のようなものは、クエリの際にスペルミスを無視できることを知っています。ただし、データをグループ化して自動的に正規化し、グループ化できるようにしたいと考えています。
特定のテキスト間のレーベンシュタイン距離を計算し、同様のエントリをグループ化することを考えました。ただし、これらのアプライアンスの多くにはモデル番号、容量などが名前に含まれているため、問題のある数の誤った一致が発生します。言うまでもなく、かなり計算量の多い操作です。
家庭用ガスボイラーの使用例
- ヴァイラント エコテック プロ 28
- VAILLIANT エコテック プロ 28
- ヴァイリアント エコ テック 28 プロ
- VAILLIANT ターボマックス 242/2-5
- ポッタートン プロマックス コンビ 28 HE プラス
- ポッタートン プロマックス 28
最初の 3 と最後の 2 は同じです。明らかに、フォーマットやスペルなど、間違いの余地がたくさんあります。