python - Scrapy は craigslist を再帰的にスクレイピングします

翻译自：https://stackoverflow.com/questions/20207260 2013-11-26T02:07:13.530

669 次

私はスクレイピーを使用してcraigslistをスクラップし、すべてのリンクを取得し、そのリンクに移動し、各ページの説明を保存し、返信のために電子メールを送信しています。今、craigslist/sof.com を調べて、すべての役職と URL を取得するスクレイピースクリプトを作成しました。各 URL にアクセスして、ジョブごとにメールと説明を保存したいと考えています。私のコードは次のとおりです。

from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from craigslist.items import CraigslistItem

class MySpider(BaseSpider):
    name = "craig"
    allowed_domains = ["craigslist.org"]
    start_urls = ["http://sfbay.craigslist.org/npo/"]
    def parse(self, response):
        hxs = HtmlXPathSelector(response)
        titles = hxs.select("//span[@class='pl']")
        for titles in titles:
                title = titles.select("a/text()").extract()
                link = titles.select("a/@href").extract()
                desc = titles.select("a/replylink").extract
                print link, title

これを行う方法はありますか？

python - Scrapy は craigslist を再帰的にスクレイピングします

2 に答える 2

Related

Reference