比較したい 2 つのテキスト ファイルがあります。私がしたことは次のとおりです。
- 私はそれらの両方を文に分割しました。
- 1 つのファイルの各文と 2 番目のファイルの各文の間のレーベンシュタイン距離を測定しました。
これら 2 つのテキスト ファイルの平均類似度を計算したいのですが、意味のある値を提供するのに苦労しています。明らかに、算術平均 ([正規化された] すべての距離の合計を比較数で割ったもの) は悪い考えです。
そのような結果をどのように解釈するか?
編集: 距離値は正規化されています。