1

私は python と lxml を使用して、大量のリンクから div.article のコンテンツを取得しています。div の実際の html マークアップが必要です。しかし、これまでのところ、マークアップを削除するリンクの text_content() しか取得できませんでした。

doc = html.fromstring(doc_text)

article = doc.cssselect("div.article")

if len(article) > 0:
    text = article[0].text_content()

    data = {
        'product':product,
        'content': text,
    }

記事[0]のマークアップを取得するのを手伝ってくれる人はいますか?

ありがとう

4

1 に答える 1

4

ノードの反復機能を使用して、そのように文字列を作成することができます。

def innerHTML(node): 
    buildString = ''
    for child in node:
        buildString += html.tostring(child)
    return buildString
于 2013-03-11T16:46:51.683 に答える