web-scraping - 動的スパイダーを管理する Scrapy

Question

さまざまな Web ページのリストをクロールする Web クローラーが必要なプロジェクトを構築しています。このリストはいつでも変更できます。これをスクレイピーでどのように実装するのが最適ですか? すべての Web サイトに対して 1 つのスパイダーを作成するか、動的にスパイダーを作成する必要がありますか?

私はScrapydについて読んだことがありますが、スパイダーを動的に作成することが最善の方法であると思います。ただし、それを実装する方法についてのヒントが必要です。

score 2 · Accepted Answer

解析ロジックが同じ場合、2 つの方法があります。

多数の Web ページの場合、リストを作成し、開始時にそのリストを読み取り、start_requestsメソッドまたはコンストラクターでそのリストをstart_urlsに割り当てることができます。
コマンドライン引数からスパイダーへのパラメーターとしてWebページリンクを渡すことができます。同じように、requests_methodまたはコンストラクターで、このパラメーターにアクセスしてstart_urlsに割り当てることができます

スクレイピーでパラメーターを渡す

    scrapy crawl spider_name -a start_url=your_url

Scrapyd で -a を -d に置き換えます

web-scraping - 動的スパイダーを管理する Scrapy

1 に答える 1

Related

Reference