0

一部のテキストに対して生成された minhash フィールド (minhash アルゴリズムに基づく) があります。私の質問は、プレフィックス クエリをワイルドカードで補完または追加することは可能ですか? 問題があるため、ハッシュされた文字列値は、シングル/トークンのコンテンツ (テキスト) の位置に基づいています。そのため、最初の数文字 (接頭辞) が類似のコンテンツと完全に一致するとは限りません。クエリのプレフィックスの前に *3AF8659GJ などのワイルドカードを追加することはできますか?

編集:問題について十分に考えていなかったと思います。ハッシュの違いは、ハッシュ文字列のどこにでもある可能性があります (テキストの違いのコンテンツ位置のテキストの違いに基づきます)。したがって、「最良の」唯一の方法は、編集距離といくつかのしきい値になると思います。

たとえば、すべてのハッシュを配列に入れ、字句順に並べ替えます (または、16 進文字列をどのように並べ替えますか?)。次に、編集距離のしきい値に達するまで次の k 個のドキュメントのみを比較し、重複を別の配列に入れます。 ..

4

1 に答える 1