0

私は、Ooodle、eBay motors、craigslist などのオンラインの自動車広告を検索する検索エンジンを構築しようとしています。また、標準的な車両名とそれらに関する仕様の大規模なデータベースもあります。私がやりたいことは、分類されたサイトで見つけた各レコードについて、それがどの車両モデル、スタイルであるか (私のデータベースから) を正確に判断できるようにすることです。たとえば、私のデータベースでのフォード トラックの標準的な名前は、2003 Ford F150 です。

ただし、分類されたサイトでは、「2003 Ford F 150」または「2003 Ford f-150」または「03 Ford truck 150」と呼ばれることがあります。これらのテキストを上記の標準名に正規化できる効果的なデータ マイニング/テキスト分類アルゴリズムはありますか?

4

2 に答える 2

1

レーベンシュタイン距離を使用して、見つかった文字列をデータベース レコードと照合できます。

もう 1 つの (おそらくより良い) アイデアは、文字列をトークン化し、車両名に単語ベクトル モデルを使用することです。このようにして、コサイン類似度を使用して関連する一致を見つけることができます。

于 2009-04-23T17:52:09.930 に答える
0

使用量とサイズの両方を拡大することを目的とした検索エンジン全体を開発する場合は、クエリをサポートする堅牢なものが必要になります。

編集距離を使用する場合は、ベッド ツリーがインデックス構造の優れた代替手段となります。データセットのサイズにもよりますが、もう 1 つの適切な方法は、レーベンシュタイン オートマトンを使用することです。レーベンシュタイン オートマトンは、検索エンジンを開発しているので必要になるかもしれないオートコンプリート機能を提供することにも優れています。

距離を編集する別のアプローチは、Jaccard インデックスと組み合わせた n-gram を使用することです。このアプローチでは、Minhash + LSHを使用できます。また、三角形の不等式を尊重する距離メトリック (1 - Jaccard インデックス) として Jaccard を使用できるため、VP-treeなどのメトリック ツリーで使用できます。

これらのアプローチのいずれかが確実に役立ちます。

于 2013-12-05T16:28:44.233 に答える