英語のシャノン エントロピーは 1 文字あたり 1.0 ~ 1.5 ビットであり、1 文字あたり 0.6 ~ 1.3 ビットと言う人もいますが、大量のテキストを調べて決定するアルゴリズムを実行する方法があるのではないかと考えていました。集合テキストの期待値は、集合テキストの文字あたり 0.08 ビットですか?
3 に答える
テキストのシャノン エントロピー値は推定値です。正確に知ることは人間の力を超えています。効率的な圧縮アルゴリズム (PAQ) を実行して推定するか、人間を使用して特定の文字列の次の文字を予測することができます。人間は、統計的知識や構文的知識だけでなく、意味的知識を適用するため、良い仕事をします。
簡単な答え: 持っているデータ/テキストを可能な限り圧縮して、経験的に必要なビット数を計算してみてください。
それは、具体的なアルゴリズムに応じて、数値を下げることができます。これは常に、シャノン エントロピーの上限にすぎません (正確な値は決してわからないことに注意してください)。
Oli Charlesworth は正しく、エントロピーはテキストではなく確率で定義されます。
データの乱れの尺度を生成できる唯一の真の方法は、コルモゴロフ複雑度を使用することです。これにも問題がありますが、特に計算不可能であり、基言語を任意に選択する必要があるため、まだ厳密に定義されていません。Oli はそれを「コンテキスト」と呼んでいます。この明確な定義は、測定している障害がデータを処理しようとしているものに関連している場合に解決できます。したがって、特定のコンピューターでの圧縮を検討する場合、ベース言語はそのコンピューターのアセンブリになります。
したがって、テキストの乱れは次のように定義できます。
テキストを出力するアセンブリで記述された最短のプログラムの長さ。