問題は、テキスト文書のコレクションがあり、入力文書に最も類似した文書を取得したいということです。入力テキスト ドキュメントは完全に一致するか、部分的に変更されている可能性があります。アルゴリズムは非常に高速でなければなりません。
現在、コレクション ドキュメントから指紋を取得する simhash を発見しました。同じことを行う他のアルゴリズムはありますか?
問題は、テキスト文書のコレクションがあり、入力文書に最も類似した文書を取得したいということです。入力テキスト ドキュメントは完全に一致するか、部分的に変更されている可能性があります。アルゴリズムは非常に高速でなければなりません。
現在、コレクション ドキュメントから指紋を取得する simhash を発見しました。同じことを行う他のアルゴリズムはありますか?
LSH (Locality Sensitive Hashing) 手法は、一般的なインデックス作成方法です。それらは、おおよその最近傍を見つけるのに非常に効率的です。
SimHash は、LSH のハッシュ アルゴリズムの 1 つです。実数値データに対してコサイン類似度を使用します。
MinHash は、LSH のもう 1 つのハッシュ アルゴリズムです。バイナリ ベクトルの類似性を計算します。
大規模なデータセットのマイニング、第 3 章、Anand Rajaraman と Jeff Ullman による。問題空間と特にMinHashへの良い導入です。
LSH(局所性依存ハッシング)技術を試したことがありますか