多くのファイルをいくつかの一般的なテンプレートと照合し、違いを抽出しようとしています。これを行うための最良の方法についての提案が欲しいのですが。例えば:
テンプレートA:
<1000 text lines that have to match>
a=?
b=2
c=3
d=?
e=5
f=6
<more text>
テンプレートB:
<1000 different text lines that have to match>
h=20
i=21
j=?
<more text>
k=22
l=?
m=24
<more text>
ファイルCを渡した場合:
<1000 text lines that match A>
a=500
b=2
c=3
d=600
e=5
f=6
<more text>
これがテンプレートAに一致すると簡単に言い、「a = 500」、「d=600」を抽出したいと思います。
これらを正規表現と一致させることはできますが、ファイルはかなり大きく、その正規表現を作成するのは面倒です。
私もdifflibを試しましたが、オペコードを解析して違いを抽出するのは最適ではないようです。
誰かより良い提案がありますか?