ページがあります。そのhtml
構造は次のようになります。
<p>
<strong style="mso-bidi-font-weight: normal;">
<span>
Text
</span>
</strong>
<span>
Text
</span>
<span>
Text
<em>
Text
</em>
Text
</span>
<span>
Text
<strong>
Text
</strong>
</span>
</p>
p
そして、各タグからテキストを抽出したいと思います。これらは改行で区切る必要があります。
first p tag: TextTextText
next p tag: TextTextText
私がやった事。
url="http://www.toponymic-dictionary.in.ua/index.php?option=com_content&view=section&layout=blog&id="+str(i)+"&Itemid="+str(i+1)
page = urllib.urlopen(url)
pageWritten = page.read()
pageReady = pageWritten.decode('utf-8')
xmldata = lxml.html.document_fromstring(pageReady)
for element in xmldata.xpath('//p[@class="MsoNormal"]'):
joined_text=u''.join(element.xpath('descendant::text()'))
print joined_text
しかし、最後だけが出力され、そのp
理由がわかりません。みんな、私はどんな助けにもとても喜んでいます。