python - Python でのバイナリファイルの差分

Question

2 つのバイナリファイルがあります。これらは次のようになりますが、データはよりランダムです。

ファイル A:

FF FF FF FF 00 00 00 00 FF FF 44 43 42 41 FF FF ...

ファイル B:

41 42 43 44 00 00 00 00 44 43 42 41 40 39 38 37 ...

私が望むのは、次のようなものを呼び出すことです:

>>> someDiffLib.diff(file_a_data, file_b_data)

そして、次のようなものを受け取ります：

[Match(pos=4, length=4)]

両方のファイルで、位置 4 のバイトが 4 バイトで同じであることを示します。各ファイルの同じ位置にないため、シーケンス44 43 42 41は一致しません。

私のために差分を行うライブラリはありますか? それとも、比較を行うためのループを作成する必要がありますか?

score 11 · Accepted Answer

これに使用できますitertools.groupby()。例を次に示します。

from itertools import groupby

# this just sets up some byte strings to use, Python 2.x version is below
# instead of this you would use f1 = open('some_file', 'rb').read()
f1 = bytes(int(b, 16) for b in 'FF FF FF FF 00 00 00 00 FF FF 44 43 42 41 FF FF'.split())
f2 = bytes(int(b, 16) for b in '41 42 43 44 00 00 00 00 44 43 42 41 40 39 38 37'.split())

matches = []
for k, g in groupby(range(min(len(f1), len(f2))), key=lambda i: f1[i] == f2[i]):
    if k:
        pos = next(g)
        length = len(list(g)) + 1
        matches.append((pos, length))

または、リスト内包表記を使用して上記と同じこと:

matches = [(next(g), len(list(g))+1)
           for k, g in groupby(range(min(len(f1), len(f2))), key=lambda i: f1[i] == f2[i])
               if k]

Python 2.x を使用している場合の例のセットアップは次のとおりです。

f1 = ''.join(chr(int(b, 16)) for b in 'FF FF FF FF 00 00 00 00 FF FF 44 43 42 41 FF FF'.split())
f2 = ''.join(chr(int(b, 16)) for b in '41 42 43 44 00 00 00 00 44 43 42 41 40 39 38 37'.split())

score 3 · Accepted Answer

提供されたitertools.groupby ソリューションは正常に機能しますが、かなり遅いです。

numpyたまたま持っていた特定の 16MB ファイルで、かなり単純な試みを作成し、それを他のソリューションと比較してテストしたところ、私のマシンでは約 42 倍高速でした。よく知っている人numpyは、これを大幅に改善できる可能性があります。

import numpy as np

def compare(path1, path2):
    x,y = np.fromfile(path1, np.int8), np.fromfile(path2, np.int8)
    length = min(x.size, y.size)
    x,y = x[:length], y[:length]

    z = np.where(x == y)[0]
    if(z.size == 0) : return z

    borders = np.append(np.insert(np.where(np.diff(z) != 1)[0] + 1, 0, 0), len(z))
    lengths = borders[1:] - borders[:-1]
    starts = z[borders[:-1]]
    return np.array([starts, lengths]).T

python - Python でのバイナリ ファイルの差分

2 に答える 2

Related

Reference

python - Python でのバイナリファイルの差分