3

さまざまな Web ページのリストをクロールする Web クローラーが必要なプロジェクトを構築しています。このリストはいつでも変更できます。これをスクレイピーでどのように実装するのが最適ですか? すべての Web サイトに対して 1 つのスパイダーを作成するか、動的にスパイダーを作成する必要がありますか?

私はScrapydについて読んだことがありますが、スパイダーを動的に作成することが最善の方法であると思います。ただし、それを実装する方法についてのヒントが必要です。

4

1 に答える 1

2

解析ロジックが同じ場合、2 つの方法があります。

  1. 多数の Web ページの場合、リストを作成し、開始時にそのリストを読み取り、start_requestsメソッドまたはコンストラクターでそのリストをstart_urlsに割り当てることができます。
  2. コマンドライン引数からスパイダーへのパラメーターとしてWebページリンクを渡すことができます。同じように、requests_methodまたはコンストラクターで、このパラメーターにアクセスしてstart_urlsに割り当てることができます

スクレイピーでパラメーターを渡す

    scrapy crawl spider_name -a start_url=your_url

Scrapyd で -a を -d に置き換えます

于 2014-09-12T07:43:34.590 に答える