0

何千ものエントリのリストに特定の大学のコースが出現する回数を数えたいと思います。問題は、コースのスペルが常に同じとは限らないことです。たとえば、Computer Engineeringと綴ることができますComputers Engineering。2 つの文字列が非常に似ているかどうかをテストする適切でエレガントな方法は何ですか?

4

1 に答える 1

2

ステミングを使用して文字列を正規化しようとします。アイデアは、各文字列に正規化された形式を与えることです。同じ単語を表す 2 つの異なる文字列は、同じ標準形式を持つ可能性が非常に高くなります (たとえば、とが同じ大砲形式を持つ場合、一致が得られます)。ComputerComputers

Porter ステミング アルゴリズムは、正規化によく使用されます。


別の方法として、文字列を互いに距離を置いて等級付けする方法があります。推奨されるレーベンシュタイン距離が役立ちますが、個人的には正規化を希望します。

于 2012-11-05T16:56:12.477 に答える