2つの文字列を受け取り、「類似性の要素」を返すアルゴリズムを探しています。
基本的に、スペルが間違っている、文字が入れ替わっているなどの入力があり、可能な値のリストから最も近いものを見つける必要があります。
これはデータベースで検索するためのものではありません。照合する文字列が500文字程度のメモリ内リストがあり、すべて30文字未満であるため、比較的遅くなる可能性があります。
私はこれが存在することを知っています、私はそれを前に見ました、しかし私はその名前を思い出せません。
編集:レーベンシュタインとハミングを指摘してくれてありがとう。さて、どれを実装すればよいですか?それらは基本的に異なるものを測定し、どちらも私が望むものに使用できますが、どちらがより適切かはわかりません。
アルゴリズムを読みましたが、ハミングは明らかに速いようです。どちらも転置されている2つの文字(つまり、ジョーダンとジョドラン)を検出しないので、これはよくある間違いであると私は信じています。誰かがトレードオフについて少し教えてもらえますか?