3

スプラッシュを使用してターゲット ページ全体をレンダリングすることにより、Web サイト全体をクロールしたときに問題が発生しました。一部のページはランダムに成功しなかったため、レンダリング ジョブが完了したときに存在することをサポートする情報を取得するのに誤りがありました。つまり、一部を取得しただけです。他のレンダリング結果からすべての情報を取得できますが、レンダリング結果からの情報の。

これが私のコードです:

yield SplashRequest(url,self.splash_parse,args = {"wait": 3,},endpoint="render.html")

settings:
SPLASH_URL = 'XXX'  
DOWNLOADER_MIDDLEWARES = {
'scrapy_splash.SplashCookiesMiddleware': 723,
'scrapy_splash.SplashMiddleware': 725,
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
}

# Enable SplashDeduplicateArgsMiddleware:
SPIDER_MIDDLEWARES = {
'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,
}

# Set a custom DUPEFILTER_CLASS:
DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter

# a custom cache storage backend:
HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'
4

1 に答える 1