4

.approxSimilarityJoinSpark MLlib LSH: MinHash for Jaccard Distanceを使用しようとしています。

val mh = new MinHashLSH()
    .setNumHashTables(5)
    .setInputCol("features")
    .setOutputCol("hashes")

numHashTables が高いほど、システムがより正確になり、計算がより複雑/遅くなることを理解しています。パラメータについて 2 つの質問があります。

  • numHashTables と MinHash 指紋サイズの関係は?
  • 値を正しく設定するにはどうすればよいですか?

注: このアルゴリズムは Uber によって MLlib に追加されていると思います: https://eng.uber.com/lsh/

4

0 に答える 0