hash - 類似性ハッシュ関数（simhash）

Question

ハッシュ関数の使用に問題があります。ドキュメント内のすべての単語にいくつかの番号（128ビットまたは64ビット）を割り当てる必要があります。したがって、「類似性」のハッシュ値は「類似性」に近い必要があります。つまり、similarity => 10022（say）の値がある場合、similar=>10025になります。これは似たような言葉で近づくはずです。また、異なる名前のハッシュ値も類似している必要があります。つまり、「john」のハッシュ値も「michel」または「sita」とほぼ同じである必要があります...など。誰かがそれについて何か考えを持っているなら。

よろしくお願いします。:)

score 3 · Accepted Answer

このようには機能しません。まず、利用可能なデータのサンプル値の一般的なモデルを見つけてから、それをストリーミングログメッセージに使用する必要があります。

score 0 · Accepted Answer

OpenNLPと呼ばれるライブラリがあるので、このライブラリを使用することで、それがどのタイプの単語であるかを知ることができます。次に、名前のような類似した単語に対して、名前または動詞を含む書き込みハッシュ関数が存在する可能性があるため、類似したハッシュ値を取得できます。ありがとう。

hash - 類似性ハッシュ関数（simhash）

2 に答える 2

Related

Reference