delphi - Delphi の「重複コンテンツ」ライブラリまたは例

Question

SEOの目的で重複したコンテンツをチェックするためにいくつかのテキストをテストする必要があるため.

そのために、2 つのテキスト (2 つの文字列 S1 と S2) があり、2 つの文字列間の類似性の割合を決定する必要があります。私の最初のコードは問題ありません。％を決定します

(nbr of common words in S1 & S2)/100x(nbr of words in the shorter string in S1 & S2).

しかし、それが良いアルゴリズムかどうかはわかりません。

共有するコード例の経験はありますか?

score 2 · Accepted Answer

あなたがやろうとしているのは、2 つの文字列の類似性のパーセンテージを見つけることです。

一部のアルゴリズムは、このまったく同じ問題をすでに解決しています。私は主に使用しています：

コードソースをデルファイですばやく検索しました。DelphiでLenvenshteinのソースコードを見つけました

Lenvenshtein アルゴリズムは、元の文字列にロールバックできる「変更の数」を見つけようとしています。
NGramDistance は単語を分割して比較しています。

したがって、Lenvenshtein では、文字列 "abc def | klm mno" は"klm mn | abc def"とは非常に異なる
ものとして認識されますが、NGramDistance では 100% 類似していると見なされます。

したがって、文字列の順序を考慮するかどうかによって異なります。

NGramDistance のソースコードが見つかりませんでした。ただし、Java から Delpi に変換することはできます。

Java のソースコードは、オープンソースの検索ソフトウェアである Lucene から取得されます。このパッケージには、より多くの文字列メトリックアルゴリズムチェックアウトが実装されています。

1 に答える 1