HTMLからカスタムvin番号を解析する必要があります
間違った一致数もほとんどありません。
.....
<meta name="google-site-verification" content="l4du7Ao9MH6TM2nJ5L54qqWoXWcuOkdeqhXCADgKErc" />
<meta name="msvalidate.01" content="FAD32C2469C51767894EB50068D37244" />
.....
<div class="hproduct auto chevrolet" data-classification="primary" data- vin="3GNDA23D18S647673" data-make="Chevrolet" >
.....
</dd></dl><dl class='vin'><dt>VIN:</dt><dd>3GNDA23D18S647673</dd></dl> <span
....... etc....
これは、必要な部分を含む html の一部です。
Pythonで正規表現を適用すると
import re
re.findall("([0-9A-Z]{8}[0-9xX]{1}[1-9A-Y^U]{1}[0-9A-Z]{2}[0-9]{5})",html)
次のような不要なデータとともに必要な結果を取得します
['FAD32C2469C517678',
'3GNDA23D18S647673',
'3GNDA23D18S647673']
FAD32C2469C517678 は不要なものです。
Pythonの正規表現でこの不要なパターンを取り除くにはどうすればよいですか?