compression - データ圧縮のエントロピーの計算

Question

彼らが「シンボルあたりの平均ビット数」をどのように計算するかについて、私は少し混乱しています。これは、各文字の確率を取得し、通常のエントロピーのようにlg（1 / probability）を掛けることによって計算されますか、それとも他の方法ですか？

また、これが真実である場合、彼らはどのようにして手紙の平均的な出現が何であるかを確実に知ることができますか？

score 2 · Accepted Answer

私は圧縮についてあまり知らないので、これに答えるべきではありませんが、私は言うことができます：

あなたは正しいです; これは、として定義される通常のエントロピー-Σp·log(p)です。これは実際には文字の頻度ではなく、メッセージの頻度であることに注意してください。つまり、次の一連のメッセージ

{ abcdefghijklmnopqrstuvwxyz }

文字ごとに分析すると見栄えがしますが、エントロピーは0です。

メッセージが生成される正確なプロセスを知らない限り、理論的に確実に知ることは不可能です。ヒューリスティックを使用する必要があります。大きなサンプルを採取して数える、または冗長性の兆候であることがわかっているパターンを探すようなものです。英語のテキストなど。

1 に答える 1