statistics - 圧縮/暗号化データのエントロピーとバイト分布の比較

Question

しばらくの間、自分自身を占めるいくつかの質問があります。

エントロピーテストは、暗号化されたデータを識別するためによく使用されます。分析されたデータのバイトが均一に分散されると、エントロピーは最大に達します。エントロピーテストを使用すると暗号化されたものとして分類される圧縮データのように、このデータは均一に分布しているため、エントロピーテストは暗号化されたデータを識別します。

例：一部のJPGファイルのエントロピーは7,9961532ビット/バイトであり、一部のTrueCrypt-containerのエントロピーは7,9998857です。これは、エントロピーテストでは、暗号化されたデータと圧縮されたデータの違いを検出できないことを意味します。しかし、最初の画像でわかるように、明らかにJPGファイルのバイトは均一に分散されていません（少なくともtruecrypt-containerからのバイトほど均一ではありません）。

別のテストは、頻度分析です。各バイトの分布が測定され、たとえばカイ二乗検定が実行されて、分布が仮想分布と比較されます。その結果、p値が得られます。JPGとTrueCrypt-dataでこのテストを実行すると、結果が異なります。

JPGファイルのp値は0です。これは、統計ビューからの分布が均一ではないことを意味します。TrueCryptファイルのp値は0.95です。これは、分布がほぼ完全に均一であることを意味します。

今の私の質問：エントロピーテストがなぜこのような誤検知を生成するのか誰かに教えてもらえますか？情報量が表現される単位のスケール（バイトあたりのビット数）ですか？たとえば、スケールが細かいため、p値ははるかに優れた「単位」ですか？

回答/アイデアをありがとうございました！

編集：残念ながら、まだ10の評判を得ていないため、画像を投稿できません:(

statistics - 圧縮/暗号化データのエントロピーとバイト分布の比較

0 に答える 0

Related

Reference