コマンドラインから引数 (-a FILE_NAME="stuff") を取得し、pipelines.py ファイルの CSVWriterPipeLine で作成されたファイルに適用するには、scrapy が必要です。(パイプライン.pyを使用した理由は、組み込みのエクスポーターがデータを繰り返し、出力ファイルでヘッダーを繰り返していたためです。同じコードですが、パイプラインに書き込むと修正されました。)
に見られるように、scrapy.utils.project import get_project_settings から試しました
コマンドラインからファイル名を変更できませんでした。
ページにある@avaleskeのソリューションも実装しようとしましたが、これは具体的にこれに対処しているためですが、彼が話しているコードをスクレイピーフォルダーのどこに配置すればよいかわかりません。
ヘルプ?
settings.py:
BOT_NAME = 'internal_links'
SPIDER_MODULES = ['internal_links.spiders']
NEWSPIDER_MODULE = 'internal_links.spiders'
CLOSESPIDER_PAGECOUNT = 100
ITEM_PIPELINES = ['internal_links.pipelines.CsvWriterPipeline']
# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = 'internal_links (+http://www.mycompany.com)'
FILE_NAME = "mytestfilename"
パイプライン.py:
import csv
class CsvWriterPipeline(object):
def __init__(self, file_name):
header = ["URL"]
self.file_name = file_name
self.csvwriter = csv.writer(open(self.file_name, 'wb'))
self.csvwriter.writerow(header)
def process_item(self, item, internallinkspider):
# build your row to export, then export the row
row = [item['url']]
self.csvwriter.writerow(row)
return item
スパイダー.py:
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.contrib.spiders import CrawlSpider, Rule
from internal_links.items import MyItem
class MySpider(CrawlSpider):
name = 'internallinkspider'
allowed_domains = ['angieslist.com']
start_urls = ['http://www.angieslist.com']
rules = (Rule(SgmlLinkExtractor(), callback='parse_url', follow=True), )
def parse_url(self, response):
item = MyItem()
item['url'] = response.url
return item