バイナリ ファイル X を他のバイナリ ファイルのディレクトリと比較し、X に最も類似している他のファイルを見つけたいと考えています。データの性質上、ファイル間に同一のチャンクが存在しますが、場所がずれている可能性があります。 . ファイルのサイズはすべて 1MB で、約 200 個あります。最新のデスクトップ コンピューターでこれらを数分以内に分析できるほど迅速なものが欲しいです。少しグーグルで検索して、いくつかの異なるバイナリ diff ユーティリティを見つけましたが、どれも私のアプリケーションに適していないようです。
たとえば、サイズが最適化されたパッチ ファイルを作成するように見える bsdiff があります。または、違いをグラフィカルに表示するだけのvbindiffですが、あるファイルが別のファイルよりもXに似ているかどうかを判断するのに実際には役に立たないようです。
この目的で直接使用できるツールがない場合、独自のユーティリティを作成するために誰かが推奨できる優れたライブラリはありますか? Pythonが望ましいですが、私は柔軟です。