私は現在、MinHashing
技術を使用したドキュメント クラスタリングに取り組んでいます。ただし、MinHash は概算でJaccard similarity
あり、要件に合わないため、望ましい結果が得られません。
これは私のシナリオです:
私は膨大な数の本を持っており、単一のページがクエリとして与えられた場合、このページが取得された対応する本を見つける必要があります。制限は、本全体の機能があり、本のページごとの機能を取得することが不可能であることです。この場合、本が大きすぎると、Jaccard 類似度の結果が悪くなります。私が本当に欲しいのは、クエリ ページと書籍の間の距離です (その逆ではありません)。あれは:
2 つのセット A、B が与えられた場合: A から B までの距離が必要です。
dis(A->B) = (A & B)/A
セットAからセットBまでの距離を与える同様の距離メトリックはありますか?さらに、MinHashing
この種の類似メトリックでアルゴリズムを使用することはまだ可能ですか?