私はスクレイピーを使用してcraigslistをスクラップし、すべてのリンクを取得し、そのリンクに移動し、各ページの説明を保存し、返信のために電子メールを送信しています。今、craigslist/sof.com を調べて、すべての役職と URL を取得するスクレイピー スクリプトを作成しました。各 URL にアクセスして、ジョブごとにメールと説明を保存したいと考えています。私のコードは次のとおりです。
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from craigslist.items import CraigslistItem
class MySpider(BaseSpider):
name = "craig"
allowed_domains = ["craigslist.org"]
start_urls = ["http://sfbay.craigslist.org/npo/"]
def parse(self, response):
hxs = HtmlXPathSelector(response)
titles = hxs.select("//span[@class='pl']")
for titles in titles:
title = titles.select("a/text()").extract()
link = titles.select("a/@href").extract()
desc = titles.select("a/replylink").extract
print link, title
これを行う方法はありますか?