.approxSimilarityJoin
Spark MLlib LSH: MinHash for Jaccard Distanceを使用しようとしています。
val mh = new MinHashLSH()
.setNumHashTables(5)
.setInputCol("features")
.setOutputCol("hashes")
numHashTables が高いほど、システムがより正確になり、計算がより複雑/遅くなることを理解しています。パラメータについて 2 つの質問があります。
- numHashTables と MinHash 指紋サイズの関係は?
- 値を正しく設定するにはどうすればよいですか?
注: このアルゴリズムは Uber によって MLlib に追加されていると思います: https://eng.uber.com/lsh/