Jaccard index \ distance を使用して、2 つのセットの類似度 / 距離を測定できることを知っています。ただし、セットの長さに関して生の Jaccard 値をスケーリングする方法を探しています。たとえば、2 つの小さなセットよりも大きな重複がある 2 つの大きなセットの類似性を高くしたいと考えています。
もちろん、単純に Jaccard 距離の値を両方のセットの和集合のサイズで割ることもできますが、その目的のためのスケーリングの標準的なスキームはありますか?
Jaccard index \ distance を使用して、2 つのセットの類似度 / 距離を測定できることを知っています。ただし、セットの長さに関して生の Jaccard 値をスケーリングする方法を探しています。たとえば、2 つの小さなセットよりも大きな重複がある 2 つの大きなセットの類似性を高くしたいと考えています。
もちろん、単純に Jaccard 距離の値を両方のセットの和集合のサイズで割ることもできますが、その目的のためのスケーリングの標準的なスキームはありますか?