次のコードを含むページがあります:
<HTML>
<HEAD>
<TITLE>smth</TITLE>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=UTF-8">
</HEAD>
<BODY>
<div id="doc" class="searchN">
<div id="hd" style="border-bottom:0;">
<a id="logo" class="logoN" href="/" alt="logo" title="open project"></a>
</div>
<div id="bd-cross">
<ol class="site" start=1>
<li class="">
<a href="url/">Smth</a>
<div class="ref">
<a href="News_and_Media/">Regional: Europe:</a>
</div>
</li>
<li class="">
<a href="url2">Descr3</a>
<div class="ref">
<a href="url3">Descr3</a>
</div>
</li>
....
</BODY>
</HTML>
<li class="">
ページでタグの存在を確認する必要があります。私はPython + RegExpを使用しています:
import re
import urllib2
url = 'url'
#Parse it
MainPage = urllib2.urlopen(url).read()
Li = re.findall("<div id=\"bd-cross\">*<li class=\"\">*</li>", MainPage)
try:
if Li:
print "Li tag on " +url+ ": Yes"
else:
print "Li tag on " +url+ ": No"
except:
print "Error"
出力は No ですが、ページにタグが含まれているため、Yes にする必要があります。Li を印刷すると、'[ ]' が出力されます。