要素U (最初はサイズが不明) のセットがあり、 n << |のランダム サンプルを生成したいと考えています。う| 要素。これには、ストリーム サンプリングが適切に機能します。
Uをいくつかのサブセットに分割し、各サブセットのランダム サンプルを取得したときに問題が発生します (各サンプルにはk <= n要素が含まれますが、通常はk = n )。また、各サブセットに含まれる要素の数も知っています。これらのサンプルを (できれば一度に 2 つのサンプルをマージして) 1 つのサイズnサンプルに結合する方法を知りたいです。
別の言い方をすれば、異なるセットAとB、およびランダム サンプルaとbが与えられた場合、 cがA ∪ Bのランダム サンプルであり、 cのサイズを指定できるように、 c ⊆ a ∪ bを作成したいと思います(通常 | c | は | a | とほぼ同じサイズになります)。