大量のデータの中に少量のデータをランダムな順序で分散するにはどうすればよいですか?
たとえば、数千行の「実際の」データがあり、「実際の」データ全体にランダムな順序で 12 ~ 2 行の制御データを挿入したいと考えています。
今、私は乱数ジェネレーターの使用方法を尋ねようとしているのではなく、統計的な質問をしています。乱数の生成方法は知っていますが、私の質問は、データがランダムな順序で挿入されていることを確認するにはどうすればよいかです同時に、ファイル全体にかなり均等に散らばっています。
乱数の生成だけに依存している場合、(非常に小さいものではありますが) すべての制御データ、または少なくともその塊が、かなり狭い範囲の「実際の」データに挿入される可能性があります。これが起こらないようにする最善の方法は何ですか?
別の言い方をすれば、サードパーティがどの行がコントロールでどれが実際の行であるかを計算する方法がないように、実際のデータ全体にコントロール データを挿入したいと考えています。
更新: 私はこれを「コミュニティ ウィキ」にしたので、誰かが私の質問を編集してより意味のあるものにしたい場合は、すぐに行ってください。
更新: 例を試してみましょう (コーディングの問題ではなく、統計上の問題であるため、この言語やプラットフォームに依存させたくありません)。
- 私は 3000 行の「実際の」データを持っています (この量は、ユーザーが持っているデータの量に応じて、実行ごとに変化します)。
- 私は 20 行の「コントロール」データを持っています (これも、ユーザーが使用したいコントロール行の数に応じて変化します。0 以上です)。
150行または「実際の」データが挿入されるたびに、これらの20行の「制御」行を挿入したいと考えています( 3000/20 = 150)。ただし、出力データ内の位置に基づいて制御行を識別できるようにしたくないため、それほど正確にしたくありません。
したがって、いくつかの「コントロール」行がまとめられたり、「コントロール」行がほとんどまたはまったくないセクションがあることは気にしませんが、一般的には「コントロール」行がデータ全体にかなり均等に分散されるようにします。