圧縮を使用しても、文字列の長さが常に短くなるとは限りません。
次のコードを検討してください。
import zlib
import bz2
def comptest(s):
print 'original length:', len(s)
print 'zlib compressed length:', len(zlib.compress(s))
print 'bz2 compressed length:', len(bz2.compress(s))
空の文字列でこれを試してみましょう。
In [15]: comptest('')
original length: 0
zlib compressed length: 8
bz2 compressed length: 14
したがってzlib
、余分な8文字とbz2
14文字が生成されます。圧縮メソッドは通常、解凍プログラムで使用するために、圧縮データの前に「ヘッダー」を配置します。このヘッダーは、出力の長さを増やします。
一言テストしてみましょう。
In [16]: comptest('test')
original length: 4
zlib compressed length: 12
bz2 compressed length: 40
ヘッダーの長さを差し引いても、圧縮によって単語が短くなることはありません。これは、この場合、圧縮するものがほとんどないためです。文字列内のほとんどの文字は1回だけ出現します。さて、短い文章です。
In [17]: comptest('This is a compression test of a short sentence.')
original length: 47
zlib compressed length: 52
bz2 compressed length: 73
この場合も、圧縮出力は入力テキストよりも大きくなります。テキストの長さが限られているため、繰り返しがほとんどないため、うまく圧縮されません。
圧縮が実際に機能するには、かなり長いテキストブロックが必要です。
In [22]: rings = '''
....: Three Rings for the Elven-kings under the sky,
....: Seven for the Dwarf-lords in their halls of stone,
....: Nine for Mortal Men doomed to die,
....: One for the Dark Lord on his dark throne
....: In the Land of Mordor where the Shadows lie.
....: One Ring to rule them all, One Ring to find them,
....: One Ring to bring them all and in the darkness bind them
....: In the Land of Mordor where the Shadows lie.'''
In [23]: comptest(rings)
original length: 410
zlib compressed length: 205
bz2 compressed length: 248