scala - Uber による Spark LSH の numHashTable に使用する値は?

翻译自：https://stackoverflow.com/questions/47419753 2017-11-21T18:02:39.600

1297 次

.approxSimilarityJoinSpark MLlib LSH: MinHash for Jaccard Distanceを使用しようとしています。

val mh = new MinHashLSH()
    .setNumHashTables(5)
    .setInputCol("features")
    .setOutputCol("hashes")

numHashTables が高いほど、システムがより正確になり、計算がより複雑/遅くなることを理解しています。パラメータについて 2 つの質問があります。

注: このアルゴリズムは Uber によって MLlib に追加されていると思います: https://eng.uber.com/lsh/

0 に答える 0