のアイテムのテーブルがあります[ID, ATTR1, ATTR2, ATTR3]
。アイテムの約半分を選択したいのですが、クラスター化されていないランダムな結果セットを取得しようとしています。言い換えると、ATTR1 値、ATTR2 値、および ATTR3 値がかなり均一に広がっています。これは必ずしもデータ全体を表しているとは限りません。つまり、全体のテーブルは一般的に特定の属性値に集中している可能性がありますが、より多様なサブセットを選択したいと考えています。属性は相互に関連していないため、ATTR1 と ATTR2 の間に実際の相関関係はありません。
例として、ATTR1 = "State" を想像してください。セット全体ではほとんどのデータがいくつかの州に集中していても、サブセット内の各項目を異なる州のものにしたいと考えています。そして、これは他の 2 つの属性にも同時に当てはまります。(一部のテーブルではこれが可能にならない場合があることは認識していますが、十分なデータがあるため、解決策がない可能性は低いです)
効率的なアルゴリズムのアイデアはありますか? ありがとう!私はこれを検索する方法さえ本当に知りません:)
(ちなみに、これが事前計算またはセット全体のインデックス付けを必要とする場合でも、ランダムに変化するサブセットをすばやく引き出すことができる限り、問題ありません)