MatrixM
は、実際のデータの Minhashing によって生成される署名マトリックスであり、列としてドキュメント、行として単語を持ちます。したがって、列はドキュメントを表します。
これで、すべてのストライプ (b
数、r
長さ) の列がハッシュ化され、列がバケツに収まるようになります。>= 1 ストライプの場合、2 つの列が同じバケットに分類される場合、それらは類似している可能性があります。
つまり、ハッシュテーブルを作成し、独立したハッシュ関数b
を見つける必要があるということですか? b
それとも、1 つだけで十分で、すべてのストライプがその列を同じバケットのコレクションに送信します (ただし、これはストライプをキャンセルしません)?
この場合、ハッシュテーブルには辞書で十分でしょうか* ?