ドキュメントの類似性を測定するためにシングルプリンティングを使用しようとしています。このプロセスには、次の手順が含まれます。
- 2 つのドキュメント D1、D2 の5 シングリングを作成します。
- 各シングルを 64 ビット ハッシュでハッシュする
- 0 から 2^64-1 までの数値のランダムな順列を選択し、シングル ハッシュに適用します
- ドキュメントごとに、結果の値の最小値を見つけます
- 一致する場合は正の例としてカウントし、一致しない場合は負の例としてカウントします
- 3.~5.を数回繰り返す
positive_examples / total examples
類似度として使用
ステップ 3 では、非常に長いシーケンスのランダム順列を生成します。Knuth-shuffle を使用することは問題外のようです。これにはいくつかのショートカットがありますか?最終的に、結果の順列の単一の要素のみが必要であることに注意してください。