algorithm - レーベンシュタイン距離を使用した 2 つのテキスト全体の類似性

Question

比較したい 2 つのテキストファイルがあります。私がしたことは次のとおりです。

これら 2 つのテキストファイルの平均類似度を計算したいのですが、意味のある値を提供するのに苦労しています。明らかに、算術平均 ([正規化された] すべての距離の合計を比較数で割ったもの) は悪い考えです。

そのような結果をどのように解釈するか?

編集: 距離値は正規化されています。

score 16 · Accepted Answer

レーベンシュタイン距離には最大値、つまり最大値があります。両方の入力文字列の長さ。それより悪くなることはありません。したがって、2 つの文字列 a と b の正規化された類似度インデックス (0 = 悪い、1 = 一致) は、1-距離 (a、b)/最大 (a.長さ、b.長さ) として計算できます。

ファイル A から 1 つのセンテンスを取得します。これをファイル B の各センテンスと比較するとおっしゃいました。ファイル B の中から距離が最も小さい (つまり、類似度指数が最も高い) センテンスを探しているのでしょう。

これらすべての「最小類似性指数」の平均を計算するだけです。これにより、2 つのテキストの類似性を大まかに見積もることができます。

しかし、類似した 2 つのテキストの文が入れ替わっている可能性があると考える理由は何ですか? 私の個人的な意見では、ストップワードリストや類義語なども導入する必要があります。

それにもかかわらず、あなたが探しているものへの別の良いアプローチかもしれないトライグラムマッチングもチェックしてください.

1 に答える 1