ハッシュ関数の使用に問題があります。ドキュメント内のすべての単語にいくつかの番号(128ビットまたは64ビット)を割り当てる必要があります。したがって、「類似性」のハッシュ値は「類似性」に近い必要があります。つまり、similarity => 10022(say)の値がある場合、similar=>10025になります。これは似たような言葉で近づくはずです。また、異なる名前のハッシュ値も類似している必要があります。つまり、「john」のハッシュ値も「michel」または「sita」とほぼ同じである必要があります...など。誰かがそれについて何か考えを持っているなら。
よろしくお願いします。:)