私はスクレイピーに取り組んでおり、サイトをスクレイピングしていて、xpath
アイテムをスクレイピングするために使用しています。しかし、一部にはdiv
含まれてjavascript
いるため、javascript コードが含まれるまで xpath を使用するdiv id
と、空のリストが返され、その div 要素 (javascript を含む) を含めずに HTML データをフェッチできます。
HTML コード
<div class="subContent2">
<div id="contentDetails">
<div class="eventDetails">
<h2>
<a href="javascript:;" onclick="jdevents.getEvent(117032)">Some data</a>
</h2>
</div>
</div>
</div>
スパイダーコード
class ExampleSpider(BaseSpider):
name = "example"
domain_name = "www.example.com"
start_urls = ["http://www.example.com/jkl/index.php"]
def parse(self, response):
hxs = HtmlXPathSelector(response)
required_data = hxs.select('//div[@class="subContent2"]/div[@id="contentDetails"]/div[@class="eventDetails"]')
上記のように 内部text(Some data)
から取得するにはどうすればよいですか、スクレイピーでJavaScriptを含む要素からデータをフェッチする別の方法はありますかanchor tag
h2 element