AJAX Web サイトを含むあらゆるタイプの Web サイトからすべてのデータをクロールおよびスクレイピングできる汎用スクレーパーを作成したいと考えています。私はインターネットを広範囲に検索しましたが、Scrapy と Splash が一緒になって AJAX Web サイトをスクレイピングする方法を説明できる適切なリンクを見つけることができませんでした (ページネーション、フォームデータ、およびページが表示される前のボタンのクリックが含まれます)。私が参照したすべてのリンクは、Splash を使用して Javascript Web サイトをレンダリングできることを示していますが、Splash を使用して JS Web サイトをレンダリングする方法についての適切なチュートリアル/説明はありません。ブラウザーの使用に関連する解決策を私に教えないでください (私はすべてをプログラムで実行したいのですが、ヘッドレス ブラウザーの提案は大歓迎です..しかし、Splash を使用したいのです)。
class FlipSpider(CrawlSpider):
name = "flip"
allowed_domains = ["www.amazon.com"]
start_urls = ['https://www.amazon.com/s/ref=nb_sb_noss?url=search-alias%3Daps&field-keywords=mobile']
rules = (Rule(LinkExtractor(), callback='lol', follow=True),
def parse_start_url(self,response):
yield scrapy.Request(response.url,
self.lol,
meta={'splash':{'endpoint':'render.html','args':{'wait': 5,'iframes':1,}}})
def lol(self, response):
"""
Some code
"""