0

一方の文書が他方の文書に含まれている場合に、2 つのテキスト文書が類似しているかどうかを調べるアルゴリズムを探しています。

よろしくお願いします。

4

1 に答える 1

0

diffはいつでもdiffstatと一緒に使用できます。差分ドキュメントは、使用するアルゴリズムについて正確ではありませんが、元の作成者がそれに関する論文を書いており (Google は差分論文を意味します)、いつでもソース コードを読むことができます。

より正確な回答を得るには、より正確な質問が必要になります。ある文書が他の文書の断片であるかどうかを知りたいだけですか? それとも、一方を別のドキュメントに同じ順序で分割できるかどうかにも関心がありますか? それとも、両方のドキュメントのマテリアルを高速アルゴリズムで一致させようとした場合に、どれだけのマテリアルが発生しないかを知りたいですか? diff は、これらすべてのことを教えてくれます。それとも、絶対ベストマッチングを知りたいですか?diff は常にそれを提供するとは限りません。レーベンシュタイン距離のようなものが必要になります。ドキュメントの 1 つが他のドキュメントよりもはるかに短い場合は、高速な文字列検索アルゴリズムを使用できます。などなど

于 2010-08-04T10:00:41.533 に答える