タグ内に含まれるすべての HTML を取得するにはどうすればよいですか?
hxs = HtmlXPathSelector(response)
element = hxs.select('//span[@class="title"]/')
おそらく次のようなものです:
hxs.select('//span[@class="title"]/html()')
編集:ドキュメントを
見ると、 new を返すメソッドのみXPathSelectorList
、またはタグ内の生のテキストのみが表示されます。新しいリストやテキストだけではなく、タグ内のソース コード HTMLを取得したい。例えば:
<html>
<head>
<title></title>
</head>
<body>
<div id="leexample">
justtext
<p class="ihatelookingforfeatures">
sometext
</p>
<p class="yahc">
sometext
</p>
</div>
<div id="lenot">
blabla
</div>
an awfuly long example for this.
</body>
</html>
hxs.select('//div[@id="leexample"]/html()')
次のように、その中の HTML を返すようなメソッドを実行したいと考えています。
justtext
<p class="ihatelookingforfeatures">
sometext
</p>
<p class="yahc">
sometext
</p>
質問のあいまいさが解消されたことを願っています。
HtmlXPathSelector
Scrapyから HTML を取得するには? (おそらくスクレイピーの範囲外の解決策?)