python - Scrapy の HTMLXPathSelector は、html ページの解析時に「セグメンテーション違反」を引き起こします

Question

「セグメンテーション違反」が発生し、scrapy が実行を停止します。Web サイトの URL を確認したところ、href 属性を持つが値のない 1 つのタグに属する必要があることがわかりました。次のように: " <a href> dummy </a>" これは lxml .so lib が原因だと思われます。少なくともスパイダーストップの問題を防ぎます。私のコードスニペット:

hxs = HtmlXPathSelector(response)
sites = hxs.select('//a')
for site in sites:
   list_title= site.select('text()').extract()
   list_link = site.select('./@href').extract() #????(crash here when parsing <a href></a>)

ところで、スクレイピングされたサイトは「http://mil.news.sohu.com/」です実行環境：scrapy 0.15.1およびpython 2.7.3、scrapyのopenssl0.13デフォルトはそうではないため、openssl0.12を事前にインストールします正常にインストールします。

どうもありがとうアーロン

score 1 · Accepted Answer

私はこの問題を解決しました。これは、scrapy によってデフォルトでインストールされる libxml2 バージョン 2.6.26 が原因です。libxml2 を 2.7.4 に更新し、解決しました。

score 0 · Accepted Answer

彼らがバグを再導入したか、これを引き起こしている別のことがあるに違いありません:

me:~$ scrapy version -v
Scrapy  : 0.16.3
lxml    : 3.0.2.0
libxml2 : 2.7.8
Twisted : 12.0.0

python - Scrapy の HTMLXPathSelector は、html ページの解析時に「セグメンテーション違反」を引き起こします

2 に答える 2

Related

Reference