python - lxml で div HTML コンテンツを取得する

Question

私は python と lxml を使用して、大量のリンクから div.article のコンテンツを取得しています。div の実際の html マークアップが必要です。しかし、これまでのところ、マークアップを削除するリンクの text_content() しか取得できませんでした。

doc = html.fromstring(doc_text)

article = doc.cssselect("div.article")

if len(article) > 0:
    text = article[0].text_content()

    data = {
        'product':product,
        'content': text,
    }

記事[0]のマークアップを取得するのを手伝ってくれる人はいますか?

ありがとう

score 4 · Accepted Answer

ノードの反復機能を使用して、そのように文字列を作成することができます。

def innerHTML(node): 
    buildString = ''
    for child in node:
        buildString += html.tostring(child)
    return buildString

python - lxml で div HTML コンテンツを取得する

1 に答える 1

Related

Reference