scrapy - Scrapy-splash がページ全体を正常にレンダリングしたことを確認するにはどうすればよいですか

翻译自：https://stackoverflow.com/questions/43053458 2017-03-27T18:03:04.360

1831 次

スプラッシュを使用してターゲットページ全体をレンダリングすることにより、Web サイト全体をクロールしたときに問題が発生しました。一部のページはランダムに成功しなかったため、レンダリングジョブが完了したときに存在することをサポートする情報を取得するのに誤りがありました。つまり、一部を取得しただけです。他のレンダリング結果からすべての情報を取得できますが、レンダリング結果からの情報の。

これが私のコードです：

yield SplashRequest(url,self.splash_parse,args = {"wait": 3,},endpoint="render.html")

settings：
SPLASH_URL = 'XXX'  
DOWNLOADER_MIDDLEWARES = {
'scrapy_splash.SplashCookiesMiddleware': 723,
'scrapy_splash.SplashMiddleware': 725,
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
}

# Enable SplashDeduplicateArgsMiddleware:
SPIDER_MIDDLEWARES = {
'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,
}

# Set a custom DUPEFILTER_CLASS:
DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter

# a custom cache storage backend:
HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'

scrapy - Scrapy-splash がページ全体を正常にレンダリングしたことを確認するにはどうすればよいですか

1 に答える 1

Related

Reference