java - Java文字列hashCodeが、異なるが類似したgeohash文字列で多くの衝突を起こすのはなぜですか?

翻译自：https://stackoverflow.com/questions/38652644 2016-07-29T07:13:04.640

887 次

Geohash 文字列は、私のスパースロジスティック回帰モデルの機能です。そこで、機能 ID を取得するために、Java 文字列 hashCode を使用して geohash 文字列に int 値を生成しました。しかし、同様の geohash 文字列に対して hashCode メソッドのパフォーマンスが悪いことがわかりました。異なる機能が同じ機能 ID を持っているため、機能が似ていてもモデルの最適化に問題がある可能性があります。たとえば、類似した geohash 文字列のペアは同じ hashCode を持ちます。

<"wws8vw", "wws8x9">
    "wws8vw".hashCode() = -774715770
    "wws8x9".hashCode() = -774715770
<"wmxy0", "wmxwn">
    "wmxy0".hashCode() = 113265337
    "wmxwn".hashCode() = 113265337

geohash ジェネレーターメソッドと Java hashCode メソッドの間に何らかの関係があると思います。だから、誰でも本当の理由とジオハッシュ文字列の衝突を減らす方法を説明できますか?

java - Java文字列hashCodeが、異なるが類似したgeohash文字列で多くの衝突を起こすのはなぜですか?

1 に答える 1

Related

Reference