0

次の 2 つのテキストがあります。

text0 = "AAAAAAAAAAAA";

text1 = "AAAAABAAAAAA";

4枚刃を使用しています。したがって、text0 = {AAAA}、text1 = {AAAA、AAAB、AABA、ABAA、BAAA} です。

この場合、Jaccard 類似度は sim = 1/5 = 0.2 です。


私はこの結果を望んでいません。2 つのテキストの類似性が高いように思われるためです。

次のようにバッグの類似性を使用したい:

text0 = {AAAA、AAAA、AAAA、AAAA、AAAA、AAAA、AAAA、AAAA、AAAA}、

text1 = {AAAA、AAAA、AAAB、AABA、ABAA、BAAA、AAAA、AAAA、AAAA}。

この 2 つのバッグを使用する場合、その類似は sim = 5/9 です。これは 0.2 をはるかに超えています。

MinHash はこれを行うことができますか?

4

2 に答える 2

1

バッグについては、加重最小単位ハッシュを使用できます。

S. Ioffe、一貫性のあるサンプリングの改善、加重ミンハッシュ、l1 スケッチ、2010 年

また

A. Shrivastava、Simple and Efficient Weighted Minwise Hashing、2016 年

多重度が常に小さい整数である場合は、たとえば番号付けによってエントリを一意にすることで、重み付けされていない最小単位のハッシュを使用することもできます。

text0 = {AAAA1, AAAA2, AAAA3, AAAA4, AAAA5, AAAA6, AAAA7, AAAA8, AAAA9},

text1 = {AAAA1、AAAA2、AAAB1、AABA1、ABAA1、BAAA1、AAAA3、AAAA4、AAAA5}。

于 2017-09-01T06:57:34.083 に答える