スクレイピーを使用した解析プロセス中に、この出力が見つかりました
[u'TARTARINI AUTO SPA (CENTRALINO SELEZIONE PASSANTE)'],"[u'VCBONAZZI\xa043', u'40013', u'CASTEL MAGGIORE']",[u'0516322411'],[u'info@tartariniauto. it'],[u'CARS (LPG INSTALLERS)'],[u'track.aspx?id=0&url=http://www.tartariniauto.it']
ご覧のとおり、次のような余分な文字がいくつかあります
u' \xa043 " ' [ ]
私はしたくない。これらを削除するにはどうすればよいですか?? また、この文字列には 5 つの項目があります。文字列を次のようにしたい:
item1 、 item2 、 item3 、 item4 、 item5
これが私のpipelines.pyコードです
from scrapy.contrib.loader import ItemLoader
from scrapy.contrib.loader.processor import TakeFirst, MapCompose, Join
import re
import json
import csv
class InfobelPipeline(object):
def __init__(self):
self.file = csv.writer(open('items.csv','wb'))
def process_item(self, item, spider):
name = item['name']
address = item['address']
phone = item['phone']
email = item['email']
category = item['category']
website = item['website']
self.file.writerow((name,address,phone,email,category,website))
return item
ありがとう