1

2 つの start_urls xxx.com/LISTA と xxx/com/LISTB から見つかった xxx.com/a、xxx.com/b などの URL を検索します。

このクローラーが終了したら、ページ xxx.com/x_in_database および xxx.com/y_in_database も追加でクロールしたいと考えています。これらの URL は、データベース内の以前のクロールで既にクロールされています (したがって、現在利用可能です)。ただし、現在のクローラーがクロールしなかった場合に限ります。 LISTA と LISTB で既にそれらを見つけます

それを行う最良の方法は何ですか?新しいクロールを開始することはできず、scrapy.signals.spider_closed(spider, reason)接続を閉じる、リソースを解放するなどの他のルーチン操作のみを行うようです

4

0 に答える 0