LSH では、ドキュメントのスライスをバケットにハッシュします。同じバケットに分類されたこれらのドキュメントは潜在的に類似しているため、最近傍である可能性があります。
40.000 ドキュメントの場合、バケット数として適切な (ほぼ) 値はどれくらいですか?
私はnumber_of_buckets = 40.000/4
今それを持っていますが、もっと減らすことができると感じています.
アイデアはありますか?
Relative: Locality Sensitive Hashing (ジャカード距離を使用) でベクトルをバケットにハッシュする方法は?