performance - シングルプリンティングは実際にどのように機能しますか?

翻译自：https://stackoverflow.com/questions/3211185 2010-07-09T08:57:21.253

617 次

3

ドキュメントの類似性を測定するためにシングルプリンティングを使用しようとしています。このプロセスには、次の手順が含まれます。

2 つのドキュメント D1、D2 の5 シングリングを作成します。
各シングルを 64 ビットハッシュでハッシュする
0 から 2^64-1 までの数値のランダムな順列を選択し、シングルハッシュに適用します
ドキュメントごとに、結果の値の最小値を見つけます
一致する場合は正の例としてカウントし、一致しない場合は負の例としてカウントします
3.～5.を数回繰り返す
positive_examples / total examples類似度として使用

ステップ 3 では、非常に長いシーケンスのランダム順列を生成します。Knuth-shuffle を使用することは問題外のようです。これにはいくつかのショートカットがありますか？最終的に、結果の順列の単一の要素のみが必要であることに注意してください。

1 に答える 1