1

問題は、テキスト文書のコレクションがあり、入力文書に最も類似した文書を取得したいということです。入力テキスト ドキュメントは完全に一致するか、部分的に変更されている可能性があります。アルゴリズムは非常に高速でなければなりません。

現在、コレクション ドキュメントから指紋を取得する simhash を発見しました。同じことを行う他のアルゴリズムはありますか?

4

2 に答える 2

2

LSH (Locality Sensitive Hashing) 手法は、一般的なインデックス作成方法です。それらは、おおよその最近傍を見つけるのに非常に効率的です。

SimHash は、LSH のハッシュ アルゴリズムの 1 つです。実数値データに対してコサイン類似度を使用します。

MinHash は、LSH のもう 1 つのハッシュ アルゴリズムです。バイナリ ベクトルの類似性を計算します。

大規模なデータセットのマイニング、第 3 章、Anand Rajaraman と Jeff Ullman による。問題空間と特にMinHashへの良い導入です。

于 2014-12-30T00:41:23.717 に答える
1

LSH(局所性依存ハッシング)技術を試したことがありますか

于 2011-08-06T06:13:34.030 に答える