次の 2 つのテキストがあります。
text0 = "AAAAAAAAAAAA";
text1 = "AAAAABAAAAAA";
4枚刃を使用しています。したがって、text0 = {AAAA}、text1 = {AAAA、AAAB、AABA、ABAA、BAAA} です。
この場合、Jaccard 類似度は sim = 1/5 = 0.2 です。
私はこの結果を望んでいません。2 つのテキストの類似性が高いように思われるためです。
次のようにバッグの類似性を使用したい:
text0 = {AAAA、AAAA、AAAA、AAAA、AAAA、AAAA、AAAA、AAAA、AAAA}、
text1 = {AAAA、AAAA、AAAB、AABA、ABAA、BAAA、AAAA、AAAA、AAAA}。
この 2 つのバッグを使用する場合、その類似は sim = 5/9 です。これは 0.2 をはるかに超えています。
MinHash はこれを行うことができますか?