私は現在、バンドと会場のデータベースを多数の外部サービスと照合する必要があるプロジェクトに取り組んでいます。
基本的に、2 つの名前が同じかどうかを判断するための最良の方法について、方向性を探しています。例えば:
- 私たちのデータベースの会場名 - 「The Pig and Whistle」
- サービス 1 - 「ピッグ アンド ホイッスル」
- サービス 2 - 「豚と笛」
- などなど
主な違いは、"the" の欠落や "and" の代わりに "&" を使用することだと思いますが、綴りや単語の順序が少し異なることもあると思います。
この状況で一般的に使用されるアルゴリズム/手法は何ですか?ノイズ ワードをフィルター処理する必要がありますか?
C# で似たような例を見たことがありますか?
更新: 誰かが ac# の例に興味がある場合は、レーベンシュタイン距離の Google コード検索を実行してアクセスできるヒープがあります。