random - データセットをランダムにサンプリングする

Question

インタビューの1つで尋ねられたQに出くわしました..

Q - 非常に大量のデータ要素 (5 月の Google 検索でのクエリ、クリスマスシーズンにウォルマートで購入した製品、電話帳の名前など) が与えられたと想像してください。目標は、元のストリームから均等に分散された 1,000 要素のランダムサンプルを効率的に返すことです。どのようにしますか？

を探しています -

データセットのランダムサンプリングとはどういう意味ですか? (つまり、結果が 1 の場合、単純にコイントスを実行して入力から文字列を選択し、1000 個のサンプルが得られるまでこれを実行できます..)
その際、何を考慮する必要がありますか? たとえば..連続していない文字列よりも、連続した文字列を取得する方が良い場合があります..言い換えると、連続する1000個の文字列をランダムに選択した方が良いですか..または、コイントスのように一度に1つの文字列を選択する方が良いですか..

これは漠然とした質問かもしれません..「ランダムにサンプルデータセット」をグーグルで検索しようとしましたが、関連する結果が見つかりませんでした.

score 1 · Accepted Answer

私が知っているように、そのようなアルゴリズムのクラスは、貯水池サンプリングアルゴリズムと呼ばれます。

私はDataMiningからそれの1つを知っていますが、その名前は知りません:

このようなストリーム処理の任意のステップで、サイズ S のストレージに S/N_you_have_seen の確率が等しい要素が含まれていることを理論的に証明できます。

たとえば、S=10;

N_you_have_seen=10^6

S - 有限数です。N_you_have_seen - 無限の可能性があります。

3 に答える 3