一連のページを調べていますが、いくつあるかはわかりませんが、現在のページは、URL に含まれる単純な数字で表されます (例: http://www.website.com/page/1 ")
Scrapy で for ループを使用して、ページの現在の推測をインクリメントし、404 に達したときに停止したいと思います。リクエストから返される応答にこの情報が含まれていることは知っていますが、自動的に取得する方法がわかりませんリクエストからのレスポンス。
これを行う方法についてのアイデアはありますか?
現在、私のコードは次のようなものです:
def start_requests(self):
baseUrl = "http://website.com/page/"
currentPage = 0
stillExists = True
while(stillExists):
currentUrl = baseUrl + str(currentPage)
test = Request(currentUrl)
if test.response.status != 404: #This is what I'm not sure of
yield test
currentPage += 1
else:
stillExists = False