私は、調査プログラムに取り組んでおり、最初に調査に回答した人にプロモーションの考慮事項が与えられます。多くのシナリオで、人々がシステムをだまして不当な昇進をさせないようにする唯一の方法は、番地の文字列を相互に照合することです。
レーベンシュタイン距離を使用して類似性を測定する数値を取得し、特定のしきい値を下回るものを重複と見なすことを検討していました。
ただし、システムを操作しようとしている場合、「South Fifth Street」の代わりに「S 5th St」と簡単に書くことができ、レーベンシュタインはこれらの文字列は非常に異なると見なすでしょう。それで、すべての文字列を「標準の住所形式」に変換することを考えていました。つまり、「South」は「s」になり、「Fifth」は「5th」になります。
それから私はこれは絶望的であり、それを確実に機能させるにはあまりにも多くの努力をしていると思っていました. それは...ですか?
私は PHP/MySql を使用しているため、そのシステムに固有の制限があります。