0

私は例えば持っています。次の HTML 行。プロパティのリストを抽出して取得する必要がありog:imageますcontent。問題は、単純な string.split() として実行すると、2 行目のcontent値に多くのスペースが含まれているため、下の行の結果が同じにならないことです。

このような文字列の行を確実に処理して次のようなリストを取得するにはどうすればよい ['og:image', 'http....whatever.jpg']ですか?2行目も同じですか?

 <meta property="og:image" content="http://google.com/example.jpg"/>
 <meta property="og:title" content="Fant over 300 falske personer i skattelistene"/>

編集:私は今のように解析しています:

tree = etree.HTML( xml )
m = tree.xpath("//meta[@property]")
for i in m:
    og = etree.tostring( i )
    print og # <meta property="og:image" content="http://google.com/example.jpg"/>

おそらく、コンテンツ/プロパティを XPath で直接リストに入れる方法はありますか?

4

1 に答える 1

1

attrib要素を文字列にキャストする代わりに、各要素のマッピングを通じて属性を取得するだけです。

for i in m:
    print (i.attrib['property'], i.attrib['content'])
于 2013-02-25T15:43:56.903 に答える