特定の統計的特性を持つデータセットを生成できるツールを探しています。たとえば、テストで使用するために、x個の外れ値を持つ100万個の整数を生成するとします。
このようなテストデータセットを生成するためのツールはありますか?私は必ずしも特別なものを必要とせず、いくつかの基本的な機能だけを必要とします。
特定の統計的特性を持つデータセットを生成できるツールを探しています。たとえば、テストで使用するために、x個の外れ値を持つ100万個の整数を生成するとします。
このようなテストデータセットを生成するためのツールはありますか?私は必ずしも特別なものを必要とせず、いくつかの基本的な機能だけを必要とします。
最も簡単な手法、少なくとも数学的に最も理解しやすい手法は、受け入れ-拒否アルゴリズムアルゴリズムです。
Math from apache commonsには、単純な確率分布からデータを生成するために使用できるツールがいくつかあります。実際、使用しているシステムの random() 機能を使用して、これらの生成関数の独自のバリアントを作成するのは非常に簡単です。random() が 0 と 1 の間の一様に分布した乱数を返すと仮定すると、必要な乱数を取得するために必要な任意の分布の逆累積分布関数にそれを渡すだけです。非常に手の込んだものが必要な場合は、マルコフ連鎖を使用できます。