この特定の問題に取り組むための最良の方法と、ライブラリがあるかどうか疑問に思っています(Pythonが望ましいですが、必要に応じて柔軟に対応できます)。
各行に文字列が含まれるファイルがあります。各行で最も長い一般的なパターンとその位置を見つけたいと思います。SequenceMatcherを使用して、1行目と2行目、1行目と3行目などを比較し、結果を相関させることができることは知っていますが、すでにそれを行っているものがある場合はどうでしょうか。
理想的には、これらの一致は各行のどこにでも表示されますが、初心者の場合は、各行の同じオフセットに存在し、そこから進んでいくことができます。文字列テーブルにアクセスするための優れたAPIを備えた圧縮ライブラリのようなものが理想的かもしれませんが、その説明に適合するものは今のところ見つかりません。
たとえば、次の行を使用します。
\x00\x00\x8c\x9e\x28\x28\x62\xf2\x97\x47\x81\x40\x3e\x4b\xa6\x0e\xfe\x8b
\x00\x00\xa8\x23\x2d\x28\x28\x0e\xb3\x47\x81\x40\x3e\x9c\xfa\x0b\x78\xed
\x00\x00\xb5\x30\xed\xe9\xac\x28\x28\x4b\x81\x40\x3e\xe7\xb2\x78\x7d\x3e
同じ位置にあるすべての行で0-1と10-12が一致し、line1[4,5]がline2[5,6]と一致してline3[7,8]と一致することを確認したいと思います。
ありがとう、