6

比較したい 2 つのテキスト ファイルがあります。私がしたことは次のとおりです。

  1. 私はそれらの両方を文に分割しました。
  2. 1 つのファイルの各文と 2 番目のファイルの各文の間のレーベンシュタイン距離を測定しました。

これら 2 つのテキスト ファイルの平均類似度を計算したいのですが、意味のある値を提供するのに苦労しています。明らかに、算術平均 ([正規化された] すべての距離の合計を比較数で割ったもの) は悪い考えです。

そのような結果をどのように解釈するか?

編集: 距離値は正規化されています。

4

1 に答える 1

16

レーベンシュタイン距離には最大値、つまり最大値があります。両方の入力文字列の長さ。それより悪くなることはありません。したがって、2 つの文字列 a と b の正規化された類似度インデックス (0 = 悪い、1 = 一致) は、1-距離 (a、b)/最大 (a.長さ、b.長さ) として計算できます。

ファイル A から 1 つのセンテンスを取得します。これをファイル B の各センテンスと比較するとおっしゃいました。ファイル B の中から距離が最も小さい (つまり、類似度指数が最も高い) センテンスを探しているのでしょう。

これらすべての「最小類似性指数」の平均を計算するだけです。これにより、2 つのテキストの類似性を大まかに見積もることができます。

しかし、類似した 2 つのテキストの文が入れ替わっている可能性があると考える理由は何ですか? 私の個人的な意見では、ストップ ワード リストや類義語なども導入する必要があります。

それにもかかわらず、あなたが探しているものへの別の良いアプローチかもしれないトライグラムマッチングもチェックしてください.

于 2013-03-25T13:45:54.920 に答える