0

データが繰り返されるバイナリ データにロスレス アルゴリズムを適用した場合、次のシナリオのどれが最高の比率を達成するのだろうかと考えていました。

圧縮率がパターンに依存すると仮定するのは正しいですか?

  1. サイズ
  2. 繰り返される回数

たとえば、バイナリ データ:

10 10 10 10 10 10 10 10 パターン(10)サイズ 2、パターン(10)繰り返し 8

1001 1001 1001 1001 パターン (1001) サイズ 4、パターン (1001) 繰り返し 4

0000000 11111111 パターン (0) サイズ 1、パターン (0) 繰り返し 8; パターン (1) サイズ 1、パターン (1) 繰り返し 8。または 0000000 11111111 パターン (0000000) サイズ 8、パターン (0000000) 繰り返し 8; パターン (11111111) サイズ 8、パターン (11111111) 繰り返し 1。

上記のうち、圧縮率が最も高いものと最も低いものはどれですか?

前もって感謝します。

4

1 に答える 1

2

これらはすべて、実際に見られる可能性が非常に低いシーケンスです。質問のポイントは何ですか?

ありふれたコンプレッサーはバイト指向です。そのため、単純に同じバイトが繰り返されるパターンは、圧縮率が最も高くなります。たとえば、deflate の制限では 1032:1 です。短いパターンを単純に繰り返すと、非常に高い圧縮率が得られます。たとえば、2 つまたは 3 つの繰り返しバイトのパターンの deflate の場合は、1032:1 です。

これらのばかげた極端なケースでの圧縮の制限は、データではなく、圧縮形式の関数です。

于 2012-10-09T01:41:16.700 に答える