data-mining - 車両検索に最適なデータマイニング方法は何ですか?

Question

私は、Ooodle、eBay motors、craigslist などのオンラインの自動車広告を検索する検索エンジンを構築しようとしています。また、標準的な車両名とそれらに関する仕様の大規模なデータベースもあります。私がやりたいことは、分類されたサイトで見つけた各レコードについて、それがどの車両モデル、スタイルであるか (私のデータベースから) を正確に判断できるようにすることです。たとえば、私のデータベースでのフォードトラックの標準的な名前は、2003 Ford F150 です。

ただし、分類されたサイトでは、「2003 Ford F 150」または「2003 Ford f-150」または「03 Ford truck 150」と呼ばれることがあります。これらのテキストを上記の標準名に正規化できる効果的なデータマイニング/テキスト分類アルゴリズムはありますか?

score 1 · Accepted Answer

レーベンシュタイン距離を使用して、見つかった文字列をデータベースレコードと照合できます。

もう 1 つの (おそらくより良い) アイデアは、文字列をトークン化し、車両名に単語ベクトルモデルを使用することです。このようにして、コサイン類似度を使用して関連する一致を見つけることができます。

score 0 · Accepted Answer

使用量とサイズの両方を拡大することを目的とした検索エンジン全体を開発する場合は、クエリをサポートする堅牢なものが必要になります。

編集距離を使用する場合は、ベッドツリーがインデックス構造の優れた代替手段となります。データセットのサイズにもよりますが、もう 1 つの適切な方法は、レーベンシュタインオートマトンを使用することです。レーベンシュタインオートマトンは、検索エンジンを開発しているので必要になるかもしれないオートコンプリート機能を提供することにも優れています。

距離を編集する別のアプローチは、Jaccard インデックスと組み合わせた n-gram を使用することです。このアプローチでは、Minhash + LSHを使用できます。また、三角形の不等式を尊重する距離メトリック (1 - Jaccard インデックス) として Jaccard を使用できるため、VP-treeなどのメトリックツリーで使用できます。

これらのアプローチのいずれかが確実に役立ちます。

data-mining - 車両検索に最適なデータマイニング方法は何ですか?

2 に答える 2

Related

Reference