div の ID を抽出したい HTML ファイル (HTML AgilityPack は使用できません) があります (ある場合)。
<div id="div1">Street ___________________ </div>
<div id="div2">CAP |__|__|__|__|__| number ______ </div>
<div id="div3">City _____________________ State |__|__|</div>
<div id="div4">City2 ____________________ State2 _____</div>
アンダースコア__を抽出するパターンがあります。 [\ _]{3,}
アンダースコアの前に div がある場合は、それを抽出します。そうでない場合は、アンダースコアのみを取得します。
私はこれまでこのパターンを構築してきました(<div id(.+?)>(\w)([\ _]{3,}/*))([\ _]{3,})
最初の部分は 3 つのグループから構築されます。1 - div タグ、2 - ラベル、3 - アンダースコア
1 - <div id(.+?)>
、2 - (\w)
、3 -[\ _]{3,}/*
ID div2 の div は、英数字以外の文字が含まれているため、ID を取得しません。
Q:私のパターンの何が問題なのですか?
4 つの div に必要な一致:
<div id="div1">Street ___________________
______
<div id="div3">City _____________________
<div id="div4">City2 ____________________
_____