私はscraperwiki.comでPythonスクレーパーを作成しています。次のコードを含むhtmlページの一部を解析する必要があります。
<div class="div_class">
<h3>I'm a title. Don't touch me</h3>
<ul>
<li>
I'm a title. Parse me
<ul>
<li>fdfdsfd</li>
<li>fdfdsfd</li>
<li>fdfdsfd</li>
<li>fdfdsfd</li>
</ul>
</li>
<li>
I'm a title. Parse me
<ul>
<li>fdfdsfd</li>
<li>fdfdsfd</li>
<li>fdfdsfd</li>
<li>fdfdsfd</li>
</ul>
</li>
<li>
I'm a title. Parse me
<ul>
<li>fdfdsfd</li>
<li>fdfdsfd</li>
<li>fdfdsfd</li>
<li>fdfdsfd</li>
</ul>
</li>
<li>
I'm a title. Parse me
<ul>
<li>fdfdsfd</li>
<li>fdfdsfd</li>
<li>fdfdsfd</li>
<li>fdfdsfd</li>
</ul>
</li>
</ul>
</div>
「私はタイトルです。解析してください」というタイトルのみを解析したいと思います。これが私がそれをしている方法です:
import scraperwiki
import lxml.html
import re
import datetime
#.......................
raw_string = lxml.html.fromstring(scraperwiki.scrape(url_to_scrape))
raw_html = raw_string.cssselect("div.div_class ul > li")
for item in ras_html
print(item.text_content())
私は仕事をします。しかし、それはすべてのデータをキャプチャします。私はそれを望んでいません、私は各ulで「私はタイトルです。私を解析してください」だけを見つけたいです、そしてそれはそれです。
どうすればいいですか?