世界中のさまざまなユーザーからのテキスト入力を含む列があり、それらをグループ化して、類似した文字列がより近くなるようにしたいと考えています。列には、英語以外の言語の文字列が含まれており、さらにスペル ミスの単語が含まれている可能性があります。
私はNグラムとレーベンシュタイン距離を調べてきましたが、行を照合するために文字列を念頭に置いている必要があるようです。
例として、私は
|Comcast |
|how to play basketball|
|Walmart |
|www.Comcast.net |
|Wamlart |
|basketball |
最終的には次のようになります。
|Comcast |
|www.Comcast.net |
|how to play basketball|
|basketball |
|Walmart |
|Wamlart |
どんな助けでも大歓迎です。ありがとうございました。