2 つの文字列間の差の割合を見つけるために、2 つのシーケンス間の差の量を測定するための文字列メトリックであるレーベンシュタイン距離を使用しています。文字列内の単語を使用して、文字列が類似していることを宣言するためのより良い方法を使用したいと思います。
例: 2 つの段落を含む文字列があり、2 番目の文字列には最初の文字列の 2 番目の段落のみが含まれているとします。
各文字列の最初の単語と 2 番目の単語などを比較できることはわかっていますが、最後に提示した例のようなケースが発生した場合、それは効果的ではありません。
最初の文字列の最初の単語を 2 番目の文字列のすべての単語と比較するかもしれないと考えていましたが、これによりプロセスが非常に遅くなるのではないかと心配しています。