私はそれらの間で一致させる必要がある2つのリスト(実際にはたくさんあります)を持っています。例えば:
次のようなドキュメントがあります。
- マンチェスター・ユナイテッド
- アーセナル FC
- ウィガン
- ...
2 番目のリストは次のようになります。
- マンチェスター U.
- アーセナル
- ウィガン FC
- ...
したがって、2 番目のリストの各単語が最初のリストに存在するかどうかを照会する必要があります (該当する場合は修正します)。
単語リストが常に変わるため、辞書を使用できません。各リストの単語は複数の単語を持つことができます。
N-gram、スペルチェッカーなどのアプローチを探していました...しかし、これらのアプローチは文字ごとに機能するため(たとえば、最初の「M」、2番目の「Ma」など)混乱しており、何がわからないのですかする、または始める。この問題をどのように解決しますか?よろしく!