インタビューの1つで尋ねられたQに出くわしました..
Q - 非常に大量のデータ要素 (5 月の Google 検索でのクエリ、クリスマス シーズンにウォルマートで購入した製品、電話帳の名前など) が与えられたと想像してください。目標は、元のストリームから均等に分散された 1,000 要素のランダム サンプルを効率的に返すことです。どのようにしますか?
を探しています -
- データ セットのランダム サンプリングとはどういう意味ですか? (つまり、結果が 1 の場合、単純にコイントスを実行して入力から文字列を選択し、1000 個のサンプルが得られるまでこれを実行できます..)
- その際、何を考慮する必要がありますか? たとえば..連続していない文字列よりも、連続した文字列を取得する方が良い場合があります..言い換えると、連続する1000個の文字列をランダムに選択した方が良いですか..または、コイントスのように一度に1つの文字列を選択する方が良いですか..
これは漠然とした質問かもしれません..「ランダムにサンプルデータセット」をグーグルで検索しようとしましたが、関連する結果が見つかりませんでした.