「セグメンテーション違反」が発生し、scrapy が実行を停止します。Web サイトの URL を確認したところ、href 属性を持つが値のない 1 つのタグに属する必要があることがわかりました。次のように: " <a href> dummy </a>
" これは lxml .so lib が原因だと思われます。少なくともスパイダーストップの問題を防ぎます。私のコードスニペット:
hxs = HtmlXPathSelector(response)
sites = hxs.select('//a')
for site in sites:
list_title= site.select('text()').extract()
list_link = site.select('./@href').extract() #????(crash here when parsing <a href></a>)
ところで、スクレイピングされたサイトは「http://mil.news.sohu.com/」です実行環境:scrapy 0.15.1およびpython 2.7.3、scrapyのopenssl0.13デフォルトはそうではないため、openssl0.12を事前にインストールします正常にインストールします。
どうもありがとうアーロン