私は、Ooodle、eBay motors、craigslist などのオンラインの自動車広告を検索する検索エンジンを構築しようとしています。また、標準的な車両名とそれらに関する仕様の大規模なデータベースもあります。私がやりたいことは、分類されたサイトで見つけた各レコードについて、それがどの車両モデル、スタイルであるか (私のデータベースから) を正確に判断できるようにすることです。たとえば、私のデータベースでのフォード トラックの標準的な名前は、2003 Ford F150 です。
ただし、分類されたサイトでは、「2003 Ford F 150」または「2003 Ford f-150」または「03 Ford truck 150」と呼ばれることがあります。これらのテキストを上記の標準名に正規化できる効果的なデータ マイニング/テキスト分類アルゴリズムはありますか?