私は python と lxml を使用して、大量のリンクから div.article のコンテンツを取得しています。div の実際の html マークアップが必要です。しかし、これまでのところ、マークアップを削除するリンクの text_content() しか取得できませんでした。
doc = html.fromstring(doc_text)
article = doc.cssselect("div.article")
if len(article) > 0:
text = article[0].text_content()
data = {
'product':product,
'content': text,
}
記事[0]のマークアップを取得するのを手伝ってくれる人はいますか?
ありがとう