ブルーム フィルターと Minhashing を実装して同様のアイテムを見つける必要があるアプリケーションがあります。
ブルームフィルターを実装しましたが、それを行うにはミンハッシング部分を理解していることを確認する必要があります:
- アプリケーションは、多数の k の長さの文字列を生成し、それをドキュメントに格納します。その後、それらすべてがブルームに挿入されます。
- MinHash を実装したいのは、ユーザーが文字列を挿入して比較し、ドキュメントで最も類似したものを見つけようとするオプションを提供することです。
ドキュメントのすべての文字列をシングルにする必要がありますか? 問題は、これらの中で私を助ける何かを実際に見つけることができないということです。私が見つけたのは、2 つのドキュメントに関するものであり、文字列のセットに対する 1 つの文字列に関するものではありません。