さまざまな Web ページのリストをクロールする Web クローラーが必要なプロジェクトを構築しています。このリストはいつでも変更できます。これをスクレイピーでどのように実装するのが最適ですか? すべての Web サイトに対して 1 つのスパイダーを作成するか、動的にスパイダーを作成する必要がありますか?
私はScrapydについて読んだことがありますが、スパイダーを動的に作成することが最善の方法であると思います。ただし、それを実装する方法についてのヒントが必要です。
さまざまな Web ページのリストをクロールする Web クローラーが必要なプロジェクトを構築しています。このリストはいつでも変更できます。これをスクレイピーでどのように実装するのが最適ですか? すべての Web サイトに対して 1 つのスパイダーを作成するか、動的にスパイダーを作成する必要がありますか?
私はScrapydについて読んだことがありますが、スパイダーを動的に作成することが最善の方法であると思います。ただし、それを実装する方法についてのヒントが必要です。
解析ロジックが同じ場合、2 つの方法があります。
スクレイピーでパラメーターを渡す
scrapy crawl spider_name -a start_url=your_url
Scrapyd で -a を -d に置き換えます