類似性スコアがどのように計算されたかを説明しない限り、確実なことは言えません。
一般に、通常の種類の類似性スコアリングでは、これは不可能です。個々の特徴から集計統計への変換で情報が失われています。期待できる最善の方法は、類似性スコアと一致する一連の機能に到達することです。
原作に「似ている」というのはそういうことだと思います。その問題はかなり興味深いです。類似度が 2 つの特徴ベクトルの内積として計算されたとします (つまり、値 = 1/true を持つオブジェクトのペアの特徴の数)。これは唯一の選択肢ではありません。情報がないことを意味する 0 (false) の値と一致しています。しかし、それは他の類似性尺度に一般化されるかもしれません。
このような場合、問題は実際には線形計画問題です。素朴なアプローチは、可能なオブジェクトの空間を徹底的に検索することです-ランダムではなく、制約によって導かれます. たとえば、SIM(A,B) := オブジェクト A とオブジェクト B の類似性を仮定します。これらのベクトルの順序を定義します。
SIM(A,B) = N の場合、A=B 最小 ((1,....,1 (N 回), 0, .... 0 (1000-N 回) など) を選択し、次に選択します。最小 C st (A,C), (B,C) は指定された値を持ちます.矛盾を見つけたら、バックトラックしてインクリメントします.
これは一貫した答えを見つけますが、複雑さは非常に高くなります (ただし、おそらくモンテカルロよりは優れています)。
より良いアルゴリズムを見つけることは興味深い問題ですが、これ以上は SO の投稿では言えません。これはおそらく CS 論文のトピックです!