Scrapy の結果から、1 つの不要な非 ASCII コード\u2013
(別名character(150)
またはen dash
) がu'Director/Senior Director \u2013 Pathology'
. \u2013
パイプラインを使用して定期的に削除しようとしています,
。しかし、次のコードは機能しませんでした。エラーメッセージも報告されません。
from datetime import datetime
from hashlib import md5
from scrapy.exceptions import DropItem
from twisted.enterprise import adbapi
import re
import string
class ReplaceASC2InTitlePipeline(object):
"""replace unwanted ASCII characters in titles"""
ascii_to_filter = ["\u2013",]
def process_item(self, item, spider):
for word in self.ascii_to_filter:
desc = item.get('title')
if (desc) and word in desc:
spider.log("\u2013 in '%s' was replace" % (item['title']) )
item['title']=item['title'].replace("\u2013", ",")
return item
else:
return item