SEOの目的で重複したコンテンツをチェックするためにいくつかのテキストをテストする必要があるため.
そのために、2 つのテキスト (2 つの文字列 S1 と S2) があり、2 つの文字列間の類似性の割合を決定する必要があります。私の最初のコードは問題ありません。%を決定します
(nbr of common words in S1 & S2)/100x(nbr of words in the shorter string in S1 & S2).
しかし、それが良いアルゴリズムかどうかはわかりません。
共有するコード例の経験はありますか?