6

スクレイピーのセットアップと実行ができたばかりで、うまく機能しますが、2つの(noob)質問があります。最初に、私はスクレイピーおよびスパイダーサイトにまったく慣れていないことを言わなければなりません。

  1. クロールするリンクの数を制限できますか? ページネーションを使用せず、ホームページに多くのリンク (私がクロールします) をリストするだけのサイトがあります。最初の 10 かそこらをクロールする必要があるだけなのに、これらのリンクをすべてクロールするのは気が引けます。

  2. 一度に複数のスパイダーを実行するにはどうすればよいですか? 現在、コマンドを使用していscrapy crawl example.comますが、example2.com と example3.com のスパイダーもあります。1 つのコマンドを使用してすべてのスパイダーを実行したいと考えています。これは可能ですか?

4

2 に答える 2

2

#1: rules 属性を使用してリンクを抽出しないでください。解析関数にルールを記述し、Requests オブジェクトを生成または返します。

#2の場合:scrapydを試してください

于 2010-11-25T05:41:24.673 に答える
1

クレジットは Shane に送られます。

CloseSpider を使用すると、この種の制限を指定できるようになります。

http://doc.scrapy.org/en/latest/topics/extensions.html#module-scrapy.contrib.closespider

必要ないのでまだ試していません。設定ファイルで拡張機能としても有効にする必要があるようです (同じページの上部を参照)。

于 2012-07-12T19:44:11.117 に答える