私は例えば持っています。次の HTML 行。プロパティのリストを抽出して取得する必要がありog:image
ますcontent
。問題は、単純な string.split() として実行すると、2 行目のcontent
値に多くのスペースが含まれているため、下の行の結果が同じにならないことです。
このような文字列の行を確実に処理して次のようなリストを取得するにはどうすればよい
['og:image', 'http....whatever.jpg']
ですか?2行目も同じですか?
<meta property="og:image" content="http://google.com/example.jpg"/>
<meta property="og:title" content="Fant over 300 falske personer i skattelistene"/>
編集:私は今のように解析しています:
tree = etree.HTML( xml )
m = tree.xpath("//meta[@property]")
for i in m:
og = etree.tostring( i )
print og # <meta property="og:image" content="http://google.com/example.jpg"/>
おそらく、コンテンツ/プロパティを XPath で直接リストに入れる方法はありますか?