5

lxml を使用して Python で小さな html パーサーを作成しました。非常に便利ですが、問題があります。

次のコードがあります。

tags = doc.xpath('//table//tr/td[@align="right"]/b')
for tag in tags:
    print(x.text.strip())

それは正常に動作します。ただし、要素<br>内にタグがある場合は、次のようになります。<b>

<b> first-half <br>
    second-half </b>

このコードはタグにのみ印刷first-halfされます。<b>

タグ<b>があってもすべてのテキストを取得するにはどうすればよいですか?<br>

ありがとう。

4

1 に答える 1

5

text_content()タグ内の非マークアップ テキストをすべて抽出するために使用します。に置き換えx.textますx.text_content()

于 2013-02-28T21:12:35.767 に答える