Scrapy を使用して Web からファイルをスクレイピングした後、ファイルをディレクトリに保存しようとしています。ファイルから日付を抽出し、それをファイル名として使用しています。しかし、私が直面している問題は、いくつかのファイルが同じ日付を持っていることです。つまり、「2009 年 6 月 2 日」という名前のファイルが 2 つあります。したがって、私が探しているのは、同じ名前のファイルが既に存在するかどうかをどうにかしてチェックすることです。存在する場合は、「June 2, 2009.1」などの名前を付けます。
私が使用しているコードは次のとおりです。
def parse_item(self, response):
self.log('Hi, this is an item page! %s' % response.url)
response = response.replace(body=response.body.replace('<br />', '\n'))
hxs = HtmlXPathSelector(response)
date = hxs.select("//div[@id='content']").extract()[0]
dateStrip = re.search(r"([A-Z]*|[A-z][a-z]+)\s\d*\d,\s[0-9]+", date)
newDate = dateStrip.group()
content = hxs.select("//div[@id='content']")
content = content.select('string()').extract()[0]
filename = ("/path/to/a/folder/ %s.txt") % (newDate)
with codecs.open(filename, 'w', encoding='utf-8') as output:
output.write(content)