python - LSH で使用されるハッシュの混乱

Question

MatrixMは、実際のデータの Minhashing によって生成される署名マトリックスであり、列としてドキュメント、行として単語を持ちます。したがって、列はドキュメントを表します。

これで、すべてのストライプ (b数、r長さ) の列がハッシュ化され、列がバケツに収まるようになります。>= 1 ストライプの場合、2 つの列が同じバケットに分類される場合、それらは類似している可能性があります。

つまり、ハッシュテーブルを作成し、独立したハッシュ関数bを見つける必要があるということですか? bそれとも、1 つだけで十分で、すべてのストライプがその列を同じバケットのコレクションに送信します (ただし、これはストライプをキャンセルしません)?

この場合、ハッシュテーブルには辞書で十分でしょうか^* ?

score 0 · Accepted Answer

将来の読者のために投稿して、それを理解したと思います。

スライドでは、すべてのストライプに同じハッシュ関数を使用しても問題ないと述べているため、1 つの辞書を使用します (辞書はそれを行います)。

すべてのバケットがディクショナリのキーになります。

挿入時に、ドキュメント (つまり、ストライプに属する列) はハッシュ関数 (作成する) によって渡され、結果はキーになります。そうすれば、辞書が作成されます。

1 に答える 1