アジリティ初心者です。与えられた入力テキスト:
<html>
... Lots of html here...
<label class="list_item_title">Yes</label><br /><br />
<div class="list_item">
<div style="width:425px;" class="left"><a href="/xyz">HIT1</a> (2012)</div>
<div style="width:190px;" class="right"></div>
</div>
<div class="list_item">
<div style="width:425px;" class="left"><a href="/abc">HIT2</a> (2012)</div>
<div style="width:190px;" class="right"></div>
</div>
<label class="list_item_title">No</label><br /><br />
<div class="list_item">
<div style="width:425px;" class="left"><a href="/xyz">IGNORE</a> (2012)</div>
<div style="width:190px;" class="right"></div>
</div>
... Lots of html here...
</html>
HIT1とHIT2を手に入れたい。
基本的に、アルゴリズムは、innerText="Yes" であるラベル ノード (class="list_item_title") の後のすべての A の innerText を見つけることです。