これがパズルです...
同じ50000以上の電子製品のデータベースが2つあり、一方のデータベースの製品をもう一方のデータベースの製品と照合したいと思います。ただし、製品名は必ずしも同一ではありません。文字列の類似性を測定するためにレーベンシュタイン距離を使用してみましたが、これは機能しませんでした。例えば、
-LG 42CS560 42-Inch 1080p 60Hz LCD HDTV
-LG 42 Inch 1080p LCD HDTV
これらのアイテムは同じですが、製品名はかなり異なります。
一方で...
-LG 42 Inch 1080p LCD HDTV
-LG 50 Inch 1080p LCD HDTV
これらは、製品名が非常に似ているさまざまな製品です。
この問題にどのように取り組むべきですか?