1

ページがあります。そのhtml構造は次のようになります。

<p>
    <strong style="mso-bidi-font-weight: normal;">
        <span>
            Text
        </span>
    </strong>
    <span>
        Text
    </span>
    <span>
        Text
        <em>
            Text
        </em>
        Text
    </span>
    <span>
        Text
        <strong>
            Text
        </strong>
    </span>
</p>

pそして、各タグからテキストを抽出したいと思います。これらは改行で区切る必要があります。

first p tag:   TextTextText
next p tag:    TextTextText

私がやった事。

url="http://www.toponymic-dictionary.in.ua/index.php?option=com_content&view=section&layout=blog&id="+str(i)+"&Itemid="+str(i+1)
page = urllib.urlopen(url)
pageWritten = page.read()
pageReady = pageWritten.decode('utf-8')
xmldata = lxml.html.document_fromstring(pageReady)
for element in xmldata.xpath('//p[@class="MsoNormal"]'):
    joined_text=u''.join(element.xpath('descendant::text()'))
print joined_text

しかし、最後だけが出力され、そのp理由がわかりません。みんな、私はどんな助けにもとても喜んでいます。

4

0 に答える 0