PRNGではなく、ある種のセンサーまたはロギングデータなど、何らかのソースからのシーケンスpf番号N
1 , N
2 , N
3が与えられた場合、このように処理すると仮定しても安全ですか?...
N
n
/ B = Q
nRem M
n
シーケンスQ
よりエントロピーが少ないシーケンスになりますM
か?
注:とのB
両方が同じサイズの範囲であると仮定します。Q
M
これは、ほとんどの現実世界のデータ セットがソースに関係なく、対数分布を持っているという観測に関連しています。1 で始まる数字は、9 で始まる数字よりもはるかに一般的です。しかし、これは下位の部分についてはほとんど語っていません。
これをテストするための楽しい方法 (そしてシステム管理者のコンピューターを停止させて怒らせる方法) として、これを bash で実行します。
ll -R 2>/dev/null | grep -v -e "^\./" | sed "s/[-rdwxlp]*\W*[0-9]*\W*[a-z]*\W*[a-z]*\W*\([0-9]\).*/\1/" | sort | uniq -c
ファイルサイズの最初の桁のヒストグラムを取得します。