python - ハフマン符号化：Pythonでバイナリデータを書き込む方法

Question

コードでコメントアウトされた行に示されているように、structモジュールを使用してメソッドを試しましたが、うまくいきませんでした。基本的に2つのオプションがあります。コードごとにバイナリデータコードを記述するか（私のコードは3〜13ビットの長さのビットのシーケンスです）、n文字の文字列全体を変換します（この場合はn = 25000 +）。バイナリデータに。しかし、どちらの方法も実装する方法がわかりません。コード：

import heapq
import binascii
import struct

def createFrequencyTupleList(inputFile):
    frequencyDic = {}

    intputFile = open(inputFile, 'r')
    for line in intputFile:
        for char in line:
            if char in frequencyDic.keys():
                frequencyDic[char] += 1
            else:
                frequencyDic[char] = 1

    intputFile.close()
    tupleList = []
    for myKey in frequencyDic:
        tupleList.append((frequencyDic[myKey],myKey))
    return tupleList

def createHuffmanTree(frequencyList):
    heapq.heapify(frequencyList)
    n = len(frequencyList)
    for i in range(1,n):
        left = heapq.heappop(frequencyList)
        right = heapq.heappop(frequencyList)
        newNode = (left[0] + right[0], left, right)
        heapq.heappush(frequencyList, newNode)
    return frequencyList[0]

def printHuffmanTree(myTree, someCode,prefix=''):
    if len(myTree) == 2:
        someCode.append((myTree[1] + "@" + prefix))
    else:
        printHuffmanTree(myTree[1], someCode,prefix + '0')
        printHuffmanTree(myTree[2], someCode,prefix + '1')

def parseCode(char, myCode):
    for k in myCode:
        if char == k[0]:
            return k[2:]


if __name__ == '__main__':
    myList = createFrequencyTupleList('input')
    myHTree = createHuffmanTree(myList)
    myCode = []
    printHuffmanTree(myHTree, myCode)
    inputFile = open('input', 'r')
    outputFile = open('encoded_file2', "w+b")
    asciiString = ''
    n=0
    for line in inputFile:
        for char in line:
            #outputFile.write(parseCode(char, myCode))
            asciiString += parseCode(char, myCode)
            n += len(parseCode(char, myCode))
    #values = asciiString
    #print n
    #s = struct.Struct('25216s')
    #packed_data = s.pack(values)
    #print packed_data
    inputFile.close()
    #outputFile.write(packed_data)
    outputFile.close()

score 4 · Accepted Answer

あなたはこれを探しています：

packed_data = ''.join(chr(int(asciiString[i:i+8], 2)) 
                         for i in range(0, len(asciiString), 8))

から一度に 8 ビットを取りasciiString、それを整数として解釈し、対応するバイトを出力します。

ここでの問題は、これがasciiString正しく機能するためには、長さが 8 ビットの倍数である必要があることです。そうでない場合は、最後の数ビットの前にゼロビットを挿入します。

したがって、最後のバイトのビット数をどこかに保存する必要があるため、それらのビットをゼロとして解釈するのではなく、それらを取得するときに無視する必要があります。あなたは試すことができます：

packed_data = chr(len(asciiString) % 8) + packed_data

次に、それを読み返すと：

packed_input = coded_file.read()
last_byte_length, packed_input, last_byte = (packed_input[0], 
                                             packed_input[1:-1], 
                                             packed_input[-1])
if not last_byte_length: last_byte_length = 8
ascii_input = ''.join(chain((bin(ord(byte))[2:].zfill(8) for byte in packed_input),
                      tuple(bin(ord(last_byte))[2:].zfill(last_byte_length),)))
# OR
# ascii_input = ''.join(chain(('{0:0=8b}'.format(byte) for byte in packed_input),
#                       tuple(('{0:0=' + str(last_byte_length) + '8b}').format(last_byte),)))

編集: によって返される文字列から '0b' を削除するbin()か、2.6 以降では、できればbin()、スライス、およびzfill().

編集: eryksun に感謝します。チェーンを使用して、ASCII 文字列のコピーを作成しないようにすることをお勧めします。ord(byte)また、bin()バージョンを呼び出す必要があります。

python - ハフマン符号化：Pythonでバイナリデータを書き込む方法

1 に答える 1

Related

Reference