python - Python: lxml を使用してスパン外のテキストを検索する

Question

HTMLを解析する必要があります。ただし、形式が正しくありません。ご覧のとおり、「Cowabunga」というテキストはどの HTML 要素にも含まれていません。

from lxml.html import fromstring
from lxml.cssselect import CSSSelector

stuff = '''<p>
                <span id="alpha" style="color: #999; "></span> 
                <span id="bravo" style="color: #999; "></span> 
                Cowabunga  
            </p>'''

l = CSSSelector ("p")

e = l(fromstring(stuff))
print e[0].text

lxml/Python を使用して CSSSelector を作成し、このテキストを見つけるにはどうすればよいですか?

ありがとう

編集：上記のコードは空白の出力を提供します-スペースの行だけです-「Cowabunga」をキャッチする必要があります

score 2 · Accepted Answer

これは混合コンテンツなので、常に少しラフです。e[0].text_content()あなたの例のすべてのテキストを取得します。

python - Python: lxml を使用してスパン外のテキストを検索する

1 に答える 1

Related

Reference