0

多くのコンテンツを含む Web サイトがあり、重複の削除に取り組んでいます。このためには、2 つの文字列を比較して一致率を確認する必要があります。ルビー simhash ジェムを使用しています: https://github.com/bookmate/simhash

gem は文字列を受け取り、整数ハッシュを返します。2 つのハッシュを比較する方法がわかりません。

X = 'King Gillette'.simhash(:split_by => //)

y = 'King Camp Gillette'.simhash(:split_by => //) 

X >> 13716569836

y >> 13809628900

差額とパーセンテージを取ることはできますか? それは弦の違いを示していますか?

4

1 に答える 1