実際、私の意図は Next from を達成すること"href="javascript:submitAction_win0(document.win0,'HRS_APPL_WRK_HRS_LST_NEXT')"
なので、例として [この URL][1] を取り上げます。この URL から、ページの最後に Next が表示されるので、タグhref="javascript:submitAction_win0(document.win0,'HRS_APPL_WRK_HRS_LST_NEXT')
が.href
#
#
def parse(self,response):
selector = Selector(response)
links = []
for link in selector.css('span.PSEDITBOX_DISPONLY').re('.*>(\d+)<.*'):
#intjid = selector.css('span.PSEDITBOX_DISPONLY').re('.*>(\d+)<.*')
abc = 'xxxx'
#print abc
yield Request(abc,callback=self.parse_listing_page,dont_filter=True)
#meta={"use_splash": False}
# )
nav_page = selector.css('div#win0divHRS_APPL_WRK_HRS_LST_NEXT a').extract()
print nav_page
for nav_page in nav_page:
## To pass the url to parse function
yield Request(urljoin('xxx',nav_page),self.parse,dont_filter=True)
上記のコードを実行すると、結果が として返されます。" HTTP status code is not handled or not allowed"
つまり、何もありません。その関数を使用して Next を達成する方法と""href="javascript:submitAction_win0(document.win0,'HRS_APPL_WRK_HRS_LST_NEXT')""
、結果が空である理由を教えてください。私はhtmlである種の奇妙なことを観察しています。たとえば、次のページの1つに次のようなアンカータグがあります"<a id="HRS_APPL_WRK_HRS_LST_NEXT" class="PSHYPERLINK" href="javascript:submitAction_win0(document.win0,'HRS_APPL_WRK_HRS_LST_NEXT');" tabindex="74" ptlinktgt="pt_replace" name="HRS_APPL_WRK_HRS_LST_NEXT"></a>"
前もって感謝します
出力:
[u'<a name="HRS_APPL_WRK_HRS_LST_NEXT" id="HRS_APPL_WRK_HRS_LST_NEXT" ptlinktgt="pt_replace" tabindex="74" href="javascript:submitAction_win0(document.win0,\'HRS_APPL_WRK_HRS_LST_NEXT\');" class="PSHYPERLINK">Next</a>']