エントロピー式についての私の理解では、データを表すために必要な最小ビット数を計算するために使用されるということです。通常、定義するときは別の言い方をしますが、以前の理解は私が今まで頼っていたものです。
これが私の問題です。100 個の「1」の後に 100 個の「0」が続くシーケンスがあるとします = 200 ビット。アルファベットは {0,1}、エントロピーの底は 2 です。シンボル "0" の確率は 0.5、"1" は 0.5 です。したがって、エントロピーは 1 または 1 ビットで 1 ビットを表します。
ただし、100 / 1 / 100 / 0 のようなものでランレングス エンコードすることができます。出力するビット数の後にビットが続きます。データよりも小さい表現を持っているようです。特に、100 をはるかに大きな数に増やした場合。
私が使用している: http://en.wikipedia.org/wiki/Information_entropy現時点での参照として。どこで私は間違えましたか?シンボルに割り当てられた確率ですか?私はそれが間違っているとは思わない。それとも、圧縮とエントロピーの関係を間違えたのでしょうか? 他に何か?
ありがとう。
編集
いくつかの回答に続いて、私のフォローアップは次のとおりです。メッセージの特定のインスタンスにエントロピー式を適用して、その情報コンテンツを見つけようとしますか? メッセージ「aaab」を取り上げて、エントロピーが ~0.811 であると言うのは有効でしょうか? はいの場合、エントロピー式を使用して 1 と 0 が n 回繰り返される 1...10....0 のエントロピーは何ですか。答えは1ですか?
はい、入力シンボルのランダム変数を作成し、メッセージに基づいて確率質量関数を推測していることを理解しています。私が確認しようとしているのは、エントロピー式がメッセージ内のシンボルの位置を考慮していないということです。