サイトの日付は「1899 年 8 月 14 日」、「1901 年 12 月 13 日」などです。「1899 年 8 月 14 日」はそのまま印刷されます。しかし、「1901 年 12 月 13 日」は、サイトからスクレイピングして csv に書き込むと、「2001 年 12 月 13 日」になります。サンプル コードは次のようになります。
url = ['www.example1.com','www.example2.com','www.example3.com' ... 'www.example4.com']
output = csv.writer(open('output_demo.csv','wb',))
output.writerow('Name', 'Start Date')
for page in url:
startdate = []
name = []
content = lxml.html.parse(page)
name_n = content.xpath('//tr[@class="data1"]/td[1]')
start_d = content.xpath('//tr[@class="data1"]/td[2]') # extracting the date
sdate = [sd.text for sd in start_d]
name_list = [na.text for na in name_n]
startdate.append(sdate)
name.append(name_list)
zipped = zip(name,startdate)
for row in zipped:
output.writerow(row) # writing 'date' and 'name'
zipped = None
サイトはこちら