1

14 個のオブジェクトがあり、それぞれが 1000 のバイナリ機能を持っているか持っていないとします。14x14 の類似性マトリックスがありますが、生の 14x1000 データはありません。類似性行列が与えられた場合、生データに似たものを再構築または生成する方法はありますか?

モンテカルロ シミュレーションを試してみましたが、制約がなければ、元の類似度マトリックスとの一貫性が低いレベルであっても達成するのに時間がかかりすぎてしまいます。

この関連する質問を見ました:類似性マトリックス -> 特徴ベクトル アルゴリズム? . しかし、彼らは次元を増やすのではなく減らしたいと考えていました。また、(1) どの行列を使用するか、(2) バイナリ行列に変換する方法もわかりません。

4

1 に答える 1

0

類似性スコアがどのように計算されたかを説明しない限り、確実なことは言えません。

一般に、通常の種類の類似性スコアリングでは、これは不可能です。個々の特徴から集計統計への変換で情報が失われています。期待できる最善の方法は、類似性スコアと一致する一連の機能に到達することです。

原作に「似ている」というのはそういうことだと思います。その問題はかなり興味深いです。類似度が 2 つの特徴ベクトルの内積として計算されたとします (つまり、値 = 1/true を持つオブジェクトのペアの特徴の数)。これは唯一の選択肢ではありません。情報がないことを意味する 0 (false) の値と一致しています。しかし、それは他の類似性尺度に一般化されるかもしれません。

このような場合、問題は実際には線形計画問題です。素朴なアプローチは、可能なオブジェクトの空間を徹底的に検索することです-ランダムではなく、制約によって導かれます. たとえば、SIM(A,B) := オブジェクト A とオブジェクト B の類似性を仮定します。これらのベクトルの順序を定義します。

SIM(A,B) = N の場合、A=B 最小 ((1,....,1 (N 回), 0, .... 0 (1000-N 回) など) を選択し、次に選択します。最小 C st (A,C), (B,C) は指定された値を持ちます.矛盾を見つけたら、バックトラックしてインクリメントします.

これは一貫した答えを見つけますが、複雑さは非常に高くなります (ただし、おそらくモンテカルロよりは優れています)。

より良いアルゴリズムを見つけることは興味深い問題ですが、これ以上は SO の投稿では言えません。これはおそらく CS 論文のトピックです!

于 2013-05-09T14:04:42.600 に答える