python - 2 つのバイナリファイルで一致するシーケンスを見つける

Question

少し背景から始めましょう。

今朝、私たちのユーザーの 1 人が、Testuff のセットアップファイルが CA アンチウイルスによってウイルスに感染していると報告されたと報告しました。これは誤検知だと確信して Web を調べたところ、別のプログラム (SpyBot) のユーザーが同じ問題を報告していることがわかりました。

さて、実際の質問です。

アンチウイルスがファイル内の特定のバイナリ署名を探していると仮定すると、両方のファイルで一致するシーケンスを見つけて、セットアップスクリプトを微調整してそのシーケンスが表示されないようにする方法を見つけたいと思います。

Pythonで次のことを試しましたが、長い間実行されていて、もっと良い方法やより速い方法があるかどうか疑問に思っていました.

from difflib import SequenceMatcher

spybot = open("spybotsd160.exe", "rb").read()
testuff = open("TestuffSetup.exe", "rb").read()

s = SequenceMatcher(None, spybot, testuff)
print s.find_longest_match(0, len(spybot), 0, len(testuff))

これを行うことができるPythonまたは別の言語用のより良いライブラリはありますか? 問題に取り組むためのまったく異なる方法も歓迎されます。

score 5 · Accepted Answer

最長共通部分文字列問題を参照してください。difflib は DP ソリューションを使用していると思いますが、これは確かに実行可能ファイルを比較するには遅すぎます。サフィックスツリー/配列を使用すると、はるかにうまくいくことができます。

perl Tree::Suffixを使用するのが最も簡単な解決策かもしれません。どうやら、指定された長さの範囲ですべての一般的な部分文字列を提供します。

@lcs = $tree->lcs;
@lcs = $tree->lcs($min_len, $max_len);
@lcs = $tree->longest_common_substrings;

score 2 · Accepted Answer

この方法で見つけたとしても、最長の一致が実際に検索されているものであるという保証はないことに注意してください。代わりに、たとえば同じコンパイラによって追加された一般的な初期化コードまたは文字列テーブルが見つかる場合があります。

score 1 · Accepted Answer

CA に連絡して、何を探しているのか、そのウイルスについて教えてもらいませんか?

または、ファイルをコピーして、警告が消えるまで個々のバイトを変更することもできます (サイズによっては時間がかかる場合があります)。

ウイルス検出は、単純に固定文字列を探すよりもはるかに複雑になる可能性があります。

score 1 · Accepted Answer

この種のアルゴリズムが必要とする複雑さと時間については、不思議に思わないほうがよいでしょう。

これに興味がある場合は、ここにリンクされている .ps ドキュメントで、このテーマの優れた紹介を見つけることができます。

これらのアルゴリズムの適切な実装が存在するかどうかはわかりません。

score 0 · Accepted Answer

バイナリ文字列を探しても役に立たないと思います。インストールプログラムは、「疑わしい」ことを行っている可能性があります。

インストーラーのホワイトリスト登録について、またはアラートのトリガーについて、CA とスパイボットに相談する必要があるでしょう。

python - 2 つのバイナリ ファイルで一致するシーケンスを見つける

5 に答える 5

Related

Reference

python - 2 つのバイナリファイルで一致するシーケンスを見つける