string - 2 つのテキストドキュメントを比較する simhash のようなアルゴリズム

Question

問題は、テキスト文書のコレクションがあり、入力文書に最も類似した文書を取得したいということです。入力テキストドキュメントは完全に一致するか、部分的に変更されている可能性があります。アルゴリズムは非常に高速でなければなりません。

現在、コレクションドキュメントから指紋を取得する simhash を発見しました。同じことを行う他のアルゴリズムはありますか?

score 2 · Accepted Answer

LSH (Locality Sensitive Hashing) 手法は、一般的なインデックス作成方法です。それらは、おおよその最近傍を見つけるのに非常に効率的です。

SimHash は、LSH のハッシュアルゴリズムの 1 つです。実数値データに対してコサイン類似度を使用します。

MinHash は、LSH のもう 1 つのハッシュアルゴリズムです。バイナリベクトルの類似性を計算します。

score 1 · Accepted Answer

1

LSH（局所性依存ハッシング）技術を試したことがありますか

于 2011-08-06T06:13:34.030 に答える

string - 2 つのテキスト ドキュメントを比較する simhash のようなアルゴリズム