python - メタタグからプロパティ、コンテンツを確実に抽出する方法は?

Question

私は例えば持っています。次の HTML 行。プロパティのリストを抽出して取得する必要がありog:imageますcontent。問題は、単純な string.split() として実行すると、2 行目のcontent値に多くのスペースが含まれているため、下の行の結果が同じにならないことです。

このような文字列の行を確実に処理して次のようなリストを取得するにはどうすればよい ['og:image', 'http....whatever.jpg']ですか?2行目も同じですか?

 <meta property="og:image" content="http://google.com/example.jpg"/>
 <meta property="og:title" content="Fant over 300 falske personer i skattelistene"/>

編集:私は今のように解析しています:

tree = etree.HTML( xml )
m = tree.xpath("//meta[@property]")
for i in m:
    og = etree.tostring( i )
    print og # <meta property="og:image" content="http://google.com/example.jpg"/>

おそらく、コンテンツ/プロパティを XPath で直接リストに入れる方法はありますか?

score 1 · Accepted Answer

attrib要素を文字列にキャストする代わりに、各要素のマッピングを通じて属性を取得するだけです。

for i in m:
    print (i.attrib['property'], i.attrib['content'])

python - メタタグからプロパティ、コンテンツを確実に抽出する方法は?

1 に答える 1

Related

Reference