lxmlとmechanizeを使用してWebサイトをスクラップしようとしていますが、エラーが発生しました。
AttributeError:'NoneType'オブジェクトに属性'xpath'がありません
いくつかのチェックの後、私html
はNoneが返されたことを発見しました。
面白い部分は、このコードは他のWebサイトで機能し、この特定のWebサイト(http://www.selangortimes.com)では機能しなかったことです。
url = 'http://www.selangortimes.com'
br = mechanize.Browser()
br.set_handle_robots(False)
br.set_handle_refresh(False)
br.addheaders = [('User-Agent', 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)')]
br.open(url)
resp = br.response()
html = lxml.html.parse(resp).getroot()
link_targets = [link.attrib.get('href') for link in html.xpath(expr)]
あなたの助けに感謝 :)
更新: 上記のコードを使用した動作中のWebサイトの例-http ://www.themalaysianinsider.com