次の状況があります。
String a = "Web クローラーは、World Wide Web インターネットを自動的に閲覧するコンピューター プログラムです"; String b = "Web Crawler コンピュータ プログラムが World Wide Web をブラウズ";
類似度を計算するためのアイデアや標準アルゴリズムはありますか?
たとえば、上記のケースでは、手動検索で推定された類似性は 90%++ である必要があります。
私の考えは、両方の文字列をトークン化し、一致したトークンの数を比較することです。(7 トークン / 1 0 トークン) * 100 のようなものですが、もちろん、この方法ではまったく効果がありません。一致した文字数の比較も効果がないようです....
誰でもガイドラインを教えてもらえますか???
上記は私のプロジェクト、Plagiarism Analyzer の一部です。
したがって、一致する単語は同義語なしでまったく同じになります。
この場合の唯一の問題は、類似性の非常に正確なパーセンテージを計算する方法です。
助けてくれてありがとう。