python - lxml -
html のタグを無視する

Question

lxml を使用して Python で小さな html パーサーを作成しました。非常に便利ですが、問題があります。

次のコードがあります。

tags = doc.xpath('//table//tr/td[@align="right"]/b')
for tag in tags:
    print(x.text.strip())

それは正常に動作します。ただし、要素 内にタグがある場合は、次のようになります。

<b> first-half <br>
    second-half </b>

このコードはタグにのみ印刷first-halfされます。

タグがあってもすべてのテキストを取得するにはどうすればよいですか? 

ありがとう。

score 5 · Accepted Answer

text_content()タグ内の非マークアップテキストをすべて抽出するために使用します。に置き換えx.textますx.text_content()。

1 に答える 1