0

HTMLを解析する必要があります。ただし、形式が正しくありません。ご覧のとおり、「Cowabunga」というテキストはどの HTML 要素にも含まれていません。

from lxml.html import fromstring
from lxml.cssselect import CSSSelector

stuff = '''<p>
                <span id="alpha" style="color: #999; "></span> 
                <span id="bravo" style="color: #999; "></span> 
                Cowabunga  
            </p>'''

l = CSSSelector ("p")

e = l(fromstring(stuff))
print e[0].text

lxml/Python を使用して CSSSelector を作成し、このテキストを見つけるにはどうすればよいですか?

ありがとう

編集:上記のコードは空白の出力を提供します-スペースの行だけです-「Cowabunga」をキャッチする必要があります

4

1 に答える 1

2

これは混合コンテンツなので、常に少しラフです。e[0].text_content()あなたの例のすべてのテキストを取得します。

于 2012-07-23T19:03:06.507 に答える